Pdftotext, przekonwertuj plik PDF na tekst z terminala

o pdftotext

W następnym artykule przyjrzymy się pdftotext. To narzędzie wiersza poleceń o otwartym kodzie źródłowym, które nam na to pozwoli konwertować pliki PDF na zwykłe pliki tekstowe. Zasadniczo wyodrębnia dane tekstowe z plików PDF. To oprogramowanie jest bezpłatne i jest domyślnie dołączane do wielu dystrybucji Gnu / Linuksa.

W kolejnych wierszach zobaczymy narzędzie dla terminala, ale w tym samym celu, aby wyodrębnić tekst z plików PDF możesz także użyć narzędzia graficznego, takiego jak Kaliber. Warto zaznaczyć, że zarówno narzędzie graficzne, jak i to, które możemy wykorzystać w terminalu, nie mogą wyodrębnić tekstu, jeśli plik PDF składa się z obrazów (fotografie, zeskanowane obrazy książek itp.).

W większości dystrybucji Gnu / Linuksa pdftotext jest częścią pakietu poppler-utils. To narzędzie jest narzędziem wiersza poleceń, które konwertować pliki PDF na zwykły tekst. Znajdziemy w nim wiele dostępnych opcji, w tym możliwość określenia zakresu stron do konwersji, możliwość jak najlepszego zachowania oryginalnego fizycznego układu tekstu, ustawianie końcówek linii, a nawet pracę z chronionymi hasłem plikami PDF .

o usunięciu znanego hasła z pliku PDF
Podobne artykuł:
Usuń znane hasło z pliku PDF w Ubutu

Zainstaluj pdftotext na Ubuntu

Aby zainstalować to narzędzie w naszym systemie Ubuntu, na wypadek, gdybyś go jeszcze nie zainstalował, wystarczy otworzyć terminal (Ctrl + Alt + T) i napisać w nim następujące polecenie zainstaluj poppler-utils:

zainstaluj narzędzia poppler

sudo apt install poppler-utils

Jak używać pdftotext

Konwertuj plik PDF na tekst

Po zainstalowaniu pakietu w naszym systemie operacyjnym możemy przekonwertować plik PDF na zwykły tekst. Możemy staraj się zachować oryginalny projekt, korzystając z opcji -układ za pomocą polecenia, ale możemy też spróbować bez niego. W terminalu (Ctrl + Alt + T) polecenie do użycia byłoby następujące:

pdftotext konwertuje pliki PDF na zwykły tekst

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

W poprzednim poleceniu musielibyśmy wymienić pdf-input.pdf z nazwą interesującego nas pliku PDF oraz pdf-output.txt przez nazwę pliku TXT, w którym chcemy zapisać tekst wejściowego pliku PDF. Jeśli nie określimy żadnego wyjściowego pliku tekstowego, pdftotext automatycznie nada plikowi taką samą nazwę jak oryginalny plik PDF, ale z rozszerzeniem txt. Inną rzeczą, którą można dodać do polecenia, będą ścieżki przed nazwami plików, jeśli to konieczne (~ / Dokumenty / pdf-input.pdf).

Konwertuj tylko zakres stron PDF na tekst

Jeśli nie jesteśmy zainteresowani konwersją całego pliku PDF, a chcemy zawęź zakres stron PDF do konwersji na tekst tam będzie użyj opcji -f (pierwsza strona do konwersji) I -l (ostatnia strona do konwersji), po którym następuje każda opcja z numerem strony. Polecenie do użycia wyglądałoby mniej więcej tak:

pdftotext -layout -f P -l U pdf-entrada.pdf

zapisz w formacie tekstowym określoną liczbę stron pliku pdf

W poprzednim poleceniu będziesz musiał zamień litery P i U na numer pierwszej i ostatniej strony wyciągać. Nazwa pdf-input.pdf Będziemy też musieli to zmienić i nadać mu nazwę pliku PDF, z którym chcemy pracować.

Użyj znaków końca wiersza

To będziemy mogli określić używając -eol, a następnie mac, dos lub unix. Następujące polecenie doda końcówki linii unixa:

pdftotext -layout -eol unix pdf-entrada.pdf

Pomoc

do sprawdź dostępne opcje, uruchom stronę podręcznika:

człowiek pdftotekst

man pdftotext

Możesz również zapoznaj się z opcją pomocy komendą:

help polecenie pdftotext

pdftotext --help

Konwertuj pliki PDF z folderu za pomocą pętli Bash FOR

W przypadku, gdy chcemy przekonwertować wszystkie pliki PDF w folderze na pliki tekstowe, pdftotext nie obsługuje konwersji wsadowej z formatu PDF na tekst. To będziemy mogli to zrobić za pomocą pętli Bash FOR w terminalu (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

do więcej informacji o pdftotext, możesz zapoznać się z witryna projektu. Jeśli wolisz nie wpisywać poleceń w terminalu, możesz również użyj a usługa online aby uzyskać ten sam wynik.


Zostaw swój komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

*

*

  1. Odpowiedzialny za dane: Miguel Ángel Gatón
  2. Cel danych: kontrola spamu, zarządzanie komentarzami.
  3. Legitymacja: Twoja zgoda
  4. Przekazywanie danych: Dane nie będą przekazywane stronom trzecim, z wyjątkiem obowiązku prawnego.
  5. Przechowywanie danych: baza danych hostowana przez Occentus Networks (UE)
  6. Prawa: w dowolnym momencie możesz ograniczyć, odzyskać i usunąć swoje dane.

  1.   Moypher Nightkrelin powiedział

    tak, cóż, to działa, ale czasami muszę zrobić OCR lub skorzystać z Libre Office Draw.

    Ponadto istnieje wiele edytorów PDF. i najwyraźniej nie dzieje się tak w przypadku tekstowania obrazów, więc nie uważam tego za praktyczne.

    Libre Office Draw jest intuicyjny i praktyczny.