PDFtotext、ターミナルから PDF をテキストに変換する

次の記事では、pdftotextを見ていきます。これはオープンソースのコマンドラインユーティリティであり、 PDFファイルをプレーンテキストファイルに変換する。基本的には、PDFファイルからテキストデータを抽出します。このソフトウェアは無料で、多くのGnu / Linuxディストリビューションにデフォルトで含まれています。

次の行では、ターミナル用のツールを紹介しますが、PDFファイルからテキストを抽出するのと同じ目的です。 次のようなグラフィックツールを使用することもできます口径。グラフィカルツールとターミナルで使用できるツールの両方が、 PDFが画像で構成されている場合、テキストを抽出できません (写真、スキャンした本の画像など。).

ほとんどのGnu / Linuxディストリビューションでは、 pdftotextはpoppler-utilsパッケージの一部として含まれています。このツールは、コマンドラインユーティリティです。 PDFファイルをプレーンテキストに変換する。その中には、変換するページの範囲を指定する機能、テキストの元の物理的なレイアウトを可能な限り維持する機能、行末を設定する機能、パスワードで保護されたPDFファイルを操作する機能など、利用可能な多くのオプションがあります。。

about quitar una contraseña conocida de un pdf

UbutuのPDFファイルから既知のパスワードを削除します

Ubuntuにpdftotextをインストールする

このツールをUbuntuシステムにインストールするには、まだインストールしていない場合は、ターミナルを開いて（Ctrl + Alt + T）、次のコマンドを入力するだけです。 poppler-utilsをインストールします:

sudo apt install poppler-utils

pdftotextの使い方

PDFファイルをテキストに変換する

パッケージをオペレーティングシステムにインストールしたら、PDFファイルをプレーンテキストに変換できます。できるオプションを使用して元のデザインを維持してみてください -レイアウト コマンドを使用しますが、コマンドを使用せずに試すこともできます。ターミナル（Ctrl + Alt + T）で使用するコマンドは、次のとおりです。

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

前のコマンドでは、置き換える必要があります pdf-input.pdf 変換したいPDFファイルの名前と pdf-output.txt 入力PDFファイルのテキストを保存するTXTファイルの名前で。 出力テキストファイルを指定しない場合、pdftotextは、元のPDFファイルと同じ名前で、拡張子がtxtのファイルに自動的に名前を付けます。。コマンドに追加するのが興味深いもうXNUMXつのことは、必要に応じてファイル名の前のパスです（〜/ドキュメント/ pdf-input.pdf).

ある範囲のPDFページのみをテキストに変換する

PDFファイル全体を変換することに興味がなく、必要な場合 テキストに変換するPDFページの範囲を絞り込みます あるだろう -fオプションを使用します (変換する最初のページ）そして、 -l (変換する最後のページ）の後に、ページ番号付きの各オプションが続きます。使用するコマンドは次のようになります。

pdftotext -layout -f P -l U pdf-entrada.pdf

前のコマンドでは、次のことを行う必要があります 文字PとUを最初と最後のページ番号に置き換えます 抽出します。の名前 pdf-input.pdf また、これを変更して、使用するPDFファイルの名前を付ける必要があります。

行末文字を使用する

これを指定できるようになります -eolに続いてmac、dos、またはunixを使用する。次のコマンドは、UNIXの行末を追加します。

pdftotext -layout -eol unix pdf-entrada.pdf

お問い合わせ

へ 利用可能なオプションを確認してください、manページを実行します。

man pdftotext

あなたはまた、 ヘルプオプションを参照してください コマンドで：

pdftotext --help

BashFORループを使用してフォルダーからPDFファイルを変換する

フォルダ内のすべてのPDFファイルをテキストファイルに変換する場合は、 pdftotextは、PDFからテキストへのバッチ変換をサポートしていません。 この BashFORループを使用してそれを行うことができます ターミナルで（Ctrl + Alt + T）：

for file in *.pdf; do pdftotext -layout "$file"; done

へ pdftotextに関する詳細情報、あなたは相談することができますプロジェクトのウェブサイト。ターミナルでコマンドを入力する必要がない場合は、次のこともできます。 使用するオンラインサービス 同じ結果を得るには。

Ubunlog

Pdftotext、ターミナルからPDFをテキストに変換します

Ubuntuにpdftotextをインストールする

pdftotextの使い方

PDFファイルをテキストに変換する

ある範囲のPDFページのみをテキストに変換する

行末文字を使用する

お問い合わせ

BashFORループを使用してフォルダーからPDFファイルを変換する

コメントを残す返信をキャンセル

Ubuntuにpdftotextをインストールする

pdftotextの使い方

PDFファイルをテキストに変換する

ある範囲のPDFページのみをテキストに変換する

行末文字を使用する

お問い合わせ

BashFORループを使用してフォルダーからPDFファイルを変換する

コメントを残す 返信をキャンセル

コメントを残す返信をキャンセル