次の記事では、pdftotextを見ていきます。 これはオープンソースのコマンドラインユーティリティであり、 PDFファイルをプレーンテキストファイルに変換する。 基本的には、PDFファイルからテキストデータを抽出します。 このソフトウェアは無料で、多くのGnu / Linuxディストリビューションにデフォルトで含まれています。
次の行では、ターミナル用のツールを紹介しますが、PDFファイルからテキストを抽出するのと同じ目的です。 次のようなグラフィックツールを使用することもできます 口径。 グラフィカルツールとターミナルで使用できるツールの両方が、 PDFが画像で構成されている場合、テキストを抽出できません (写真、スキャンした本の画像など。).
ほとんどのGnu / Linuxディストリビューションでは、 pdftotextはpoppler-utilsパッケージの一部として含まれています。 このツールは、コマンドラインユーティリティです。 PDFファイルをプレーンテキストに変換する。 その中には、変換するページの範囲を指定する機能、テキストの元の物理的なレイアウトを可能な限り維持する機能、行末を設定する機能、パスワードで保護されたPDFファイルを操作する機能など、利用可能な多くのオプションがあります。 。
Ubuntuにpdftotextをインストールする
このツールをUbuntuシステムにインストールするには、まだインストールしていない場合は、ターミナルを開いて(Ctrl + Alt + T)、次のコマンドを入力するだけです。 poppler-utilsをインストールします:
sudo apt install poppler-utils
pdftotextの使い方
PDFファイルをテキストに変換する
パッケージをオペレーティングシステムにインストールしたら、PDFファイルをプレーンテキストに変換できます。 できる オプションを使用して元のデザインを維持してみてください -レイアウト コマンドを使用しますが、コマンドを使用せずに試すこともできます。 ターミナル(Ctrl + Alt + T)で使用するコマンドは、次のとおりです。
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
前のコマンドでは、置き換える必要があります pdf-input.pdf 変換したいPDFファイルの名前と pdf-output.txt 入力PDFファイルのテキストを保存するTXTファイルの名前で。 出力テキストファイルを指定しない場合、pdftotextは、元のPDFファイルと同じ名前で、拡張子がtxtのファイルに自動的に名前を付けます。。 コマンドに追加するのが興味深いもうXNUMXつのことは、必要に応じてファイル名の前のパスです(〜/ドキュメント/ pdf-input.pdf).
ある範囲のPDFページのみをテキストに変換する
PDFファイル全体を変換することに興味がなく、必要な場合 テキストに変換するPDFページの範囲を絞り込みます あるだろう -fオプションを使用します (変換する最初のページ)そして、 -l (変換する最後のページ)の後に、ページ番号付きの各オプションが続きます。 使用するコマンドは次のようになります。
pdftotext -layout -f P -l U pdf-entrada.pdf
前のコマンドでは、次のことを行う必要があります 文字PとUを最初と最後のページ番号に置き換えます 抽出します。 の名前 pdf-input.pdf また、これを変更して、使用するPDFファイルの名前を付ける必要があります。
行末文字を使用する
これを指定できるようになります -eolに続いてmac、dos、またはunixを使用する。 次のコマンドは、UNIXの行末を追加します。
pdftotext -layout -eol unix pdf-entrada.pdf
お問い合わせ
へ 利用可能なオプションを確認してください、manページを実行します。
man pdftotext
あなたはまた、 ヘルプオプションを参照してください コマンドで:
pdftotext --help
BashFORループを使用してフォルダーからPDFファイルを変換する
フォルダ内のすべてのPDFファイルをテキストファイルに変換する場合は、 pdftotextは、PDFからテキストへのバッチ変換をサポートしていません。 この BashFORループを使用してそれを行うことができます ターミナルで(Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
へ pdftotextに関する詳細情報、あなたは相談することができます プロジェクトのウェブサイト。 ターミナルでコマンドを入力する必要がない場合は、次のこともできます。 使用する オンラインサービス 同じ結果を得るには。
はい、うまくいきますが、OCRを実行したり、Libre OfficeDrawを使用したりする必要がある場合があります。
さらに、多くのpdfエディターがあります。 どうやらこれは画像のテキストには起こらないので、実用的ではないと思います。
そして、Libre OfficeDrawは直感的で実用的です。