Pdftotext、ターミナルからPDFをテキストに変換します

pdftotextについて

次の記事では、pdftotextを見ていきます。 これはオープンソースのコマンドラインユーティリティであり、 PDFファイルをプレーンテキストファイルに変換する。 基本的には、PDFファイルからテキストデータを抽出します。 このソフトウェアは無料で、多くのGnu / Linuxディストリビューションにデフォルトで含まれています。

次の行では、ターミナル用のツールを紹介しますが、PDFファイルからテキストを抽出するのと同じ目的です。 次のようなグラフィックツールを使用することもできます 口径。 グラフィカルツールとターミナルで使用できるツールの両方が、 PDFが画像で構成されている場合、テキストを抽出できません (写真、スキャンした本の画像など。).

ほとんどのGnu / Linuxディストリビューションでは、 pdftotextはpoppler-utilsパッケージの一部として含まれています。 このツールは、コマンドラインユーティリティです。 PDFファイルをプレーンテキストに変換する。 その中には、変換するページの範囲を指定する機能、テキストの元の物理的なレイアウトを可能な限り維持する機能、行末を設定する機能、パスワードで保護されたPDFファイルを操作する機能など、利用可能な多くのオプションがあります。 。

PDFから既知のパスワードを削除することについて
関連記事
UbutuのPDFファイルから既知のパスワードを削除します

Ubuntuにpdftotextをインストールする

このツールをUbuntuシステムにインストールするには、まだインストールしていない場合は、ターミナルを開いて(Ctrl + Alt + T)、次のコマンドを入力するだけです。 poppler-utilsをインストールします:

popplerutilsをインストールする

sudo apt install poppler-utils

pdftotextの使い方

PDFファイルをテキストに変換する

パッケージをオペレーティングシステムにインストールしたら、PDFファイルをプレーンテキストに変換できます。 できる オプションを使用して元のデザインを維持してみてください -レイアウト コマンドを使用しますが、コマンドを使用せずに試すこともできます。 ターミナル(Ctrl + Alt + T)で使用するコマンドは、次のとおりです。

pdftotextpdfをプレーンテキストに変換します

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

前のコマンドでは、置き換える必要があります pdf-input.pdf 変換したいPDFファイルの名前と pdf-output.txt 入力PDFファイルのテキストを保存するTXTファイルの名前で。 出力テキストファイルを指定しない場合、pdftotextは、元のPDFファイルと同じ名前で、拡張子がtxtのファイルに自動的に名前を付けます。。 コマンドに追加するのが興味深いもうXNUMXつのことは、必要に応じてファイル名の前のパスです(〜/ドキュメント/ pdf-input.pdf).

ある範囲のPDFページのみをテキストに変換する

PDFファイル全体を変換することに興味がなく、必要な場合 テキストに変換するPDFページの範囲を絞り込みます あるだろう -fオプションを使用します (変換する最初のページ)そして、 -l (変換する最後のページ)の後に、ページ番号付きの各オプションが続きます。 使用するコマンドは次のようになります。

pdftotext -layout -f P -l U pdf-entrada.pdf

PDFの指定されたページ数をテキスト形式で保存します

前のコマンドでは、次のことを行う必要があります 文字PとUを最初と最後のページ番号に置き換えます 抽出します。 の名前 pdf-input.pdf また、これを変更して、使用するPDFファイルの名前を付ける必要があります。

行末文字を使用する

これを指定できるようになります -eolに続いてmac、dos、またはunixを使用する。 次のコマンドは、UNIXの行末を追加します。

pdftotext -layout -eol unix pdf-entrada.pdf

お問い合わせ

利用可能なオプションを確認してください、manページを実行します。

男pdftotext

man pdftotext

あなたはまた、 ヘルプオプションを参照してください コマンドで:

ヘルプコマンドpdftotext

pdftotext --help

BashFORループを使用してフォルダーからPDFファイルを変換する

フォルダ内のすべてのPDFファイルをテキストファイルに変換する場合は、 pdftotextは、PDFからテキストへのバッチ変換をサポートしていません。 この BashFORループを使用してそれを行うことができます ターミナルで(Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

pdftotextに関する詳細情報、あなたは相談することができます プロジェクトのウェブサイト。 ターミナルでコマンドを入力する必要がない場合は、次のこともできます。 使用する オンラインサービス 同じ結果を得るには。


コメントを残す

あなたのメールアドレスが公開されることはありません。 必須フィールドには付いています *

*

*

  1. データの責任者:MiguelÁngelGatón
  2. データの目的:SPAMの制御、コメント管理。
  3. 正当化:あなたの同意
  4. データの伝達:法的義務がある場合を除き、データが第三者に伝達されることはありません。
  5. データストレージ:Occentus Networks(EU)がホストするデータベース
  6. 権利:いつでも情報を制限、回復、削除できます。

  1.   モイファー・ニグスクレリン

    はい、うまくいきますが、OCRを実行したり、Libre OfficeDrawを使用したりする必要がある場合があります。

    さらに、多くのpdfエディターがあります。 どうやらこれは画像のテキストには起こらないので、実用的ではないと思います。

    そして、Libre OfficeDrawは直感的で実用的です。