Pdftotext, chuyển đổi PDF thành văn bản từ thiết bị đầu cuối

về pdftotext

Trong phần tiếp theo, chúng ta sẽ xem xét về pdftotext. Đây là một tiện ích dòng lệnh mã nguồn mở sẽ cho phép chúng tôi chuyển đổi tệp PDF sang tệp văn bản thuần túy. Về cơ bản những gì nó làm là trích xuất dữ liệu văn bản từ các tệp PDF. Phần mềm này miễn phí và được bao gồm theo mặc định trong nhiều bản phân phối Gnu / Linux.

Trong những dòng tiếp theo, chúng ta sẽ thấy một công cụ cho thiết bị đầu cuối, nhưng với cùng mục đích trích xuất văn bản từ tệp PDF bạn cũng có thể sử dụng một công cụ đồ họa như đường kính. Điều đáng chú ý là cả công cụ đồ họa và công cụ mà chúng ta có thể sử dụng trong thiết bị đầu cuối, họ không thể trích xuất văn bản nếu PDF được tạo bằng hình ảnh (ảnh chụp, ảnh sách được quét, v.v.).

Trên hầu hết các bản phân phối Gnu / Linux, pdftotext được bao gồm như một phần của gói poppler-utils. Công cụ này là một tiện ích dòng lệnh chuyển đổi tệp PDF sang văn bản thuần túy. Trong đó, chúng tôi sẽ tìm thấy nhiều tùy chọn có sẵn, bao gồm khả năng chỉ định phạm vi trang để chuyển đổi, khả năng giữ bố cục vật lý ban đầu của văn bản cũng như có thể, đặt kết thúc dòng và thậm chí làm việc với các tệp PDF được bảo vệ bằng mật khẩu .

về cách xóa mật khẩu đã biết khỏi pdf
Bài viết liên quan:
Xóa mật khẩu đã biết khỏi tệp PDF trong Ubutu

Cài đặt pdftotext trên Ubuntu

Để cài đặt công cụ này trên hệ thống Ubuntu của chúng tôi, trong trường hợp bạn chưa cài đặt nó, bạn chỉ cần mở một thiết bị đầu cuối (Ctrl + Alt + T) và viết lệnh sau vào đó cài đặt poppler-utils:

cài đặt poppler utils

sudo apt install poppler-utils

Cách sử dụng pdftotext

Chuyển đổi tệp PDF thành văn bản

Khi chúng tôi đã cài đặt gói này trên hệ điều hành của mình, chúng tôi có thể chuyển đổi tệp PDF thành văn bản thuần túy. Chúng ta có thể cố gắng giữ thiết kế ban đầu bằng cách sử dụng tùy chọn -bố trí bằng lệnh, nhưng chúng ta cũng có thể thử mà không cần nó. Trong một thiết bị đầu cuối (Ctrl + Alt + T), lệnh sử dụng sẽ như sau:

pdftotext chuyển đổi pdf sang văn bản thuần túy

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Trong lệnh trước, chúng ta sẽ phải thay thế pdf-input.pdf với tên của tệp PDF mà chúng tôi muốn chuyển đổi, và pdf-output.txt theo tên của tệp TXT mà chúng tôi muốn lưu văn bản của tệp PDF đầu vào. Nếu chúng tôi không chỉ định bất kỳ tệp văn bản đầu ra nào, pdftotext sẽ tự động đặt tên tệp có cùng tên với tệp PDF gốc nhưng có phần mở rộng txt. Một thứ khác có thể thú vị khi thêm vào lệnh sẽ là các đường dẫn trước tên tệp nếu cần (~ / Documents / pdf-input.pdf).

Chỉ chuyển đổi một loạt các trang PDF thành văn bản

Nếu chúng tôi không quan tâm đến việc chuyển đổi toàn bộ tệp PDF và chúng tôi muốn thu hẹp một loạt các trang PDF để chuyển đổi thành văn bản sẽ có tùy chọn sử dụng -f (trang đầu tiên để chuyển đổi) Y -l (trang cuối cùng để chuyển đổi) theo sau là mỗi tùy chọn với số trang. Lệnh sử dụng sẽ giống như sau:

pdftotext -layout -f P -l U pdf-entrada.pdf

lưu ở định dạng văn bản một số trang nhất định của một pdf

Trong lệnh trước, bạn sẽ phải thay thế các chữ cái P và U bằng số trang đầu tiên và cuối cùng để giải nen. Tên của pdf-input.pdf Chúng tôi cũng sẽ phải thay đổi nó và đặt cho nó tên của tệp PDF mà chúng tôi muốn làm việc.

Sử dụng các ký tự cuối dòng

Điều này chúng tôi sẽ có thể chỉ định sử dụng -eol, theo sau là mac, dos hoặc unix. Lệnh sau sẽ thêm phần cuối dòng unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Giúp

đến kiểm tra các tùy chọn có sẵn, chạy trang người đàn ông:

người đàn ông pdftotext

man pdftotext

Bạn cũng có thể tham khảo tùy chọn trợ giúp với lệnh:

lệnh trợ giúp pdftotext

pdftotext --help

Chuyển đổi tệp PDF từ một thư mục bằng vòng lặp Bash FOR

Trong trường hợp chúng tôi muốn chuyển đổi tất cả các tệp PDF trong một thư mục thành tệp văn bản, pdftotext không hỗ trợ chuyển đổi hàng loạt từ PDF sang văn bản. Cái này chúng tôi sẽ có thể làm điều đó bằng cách sử dụng vòng lặp Bash FOR trong terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

đến thêm thông tin về pdftotext, bạn có thể tham khảo trang web dự án. Trong trường hợp bạn không muốn phải nhập lệnh trong thiết bị đầu cuối, bạn cũng có thể sử dụng một dịch vụ trực tuyến để có được kết quả tương tự.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.

  1.   Moypher Nightkrelin dijo

    vâng, nó hoạt động tốt, nhưng đôi khi tôi phải thực hiện OCR hoặc sử dụng Libre Office Draw.

    Ngoài ra có rất nhiều trình chỉnh sửa pdf. và rõ ràng điều này không xảy ra với văn bản hình ảnh, vì vậy tôi không thấy nó thực tế.

    Và Libre Office Draw là trực quan và thiết thực.