W następnym artykule przyjrzymy się pdftotext. To narzędzie wiersza poleceń o otwartym kodzie źródłowym, które nam na to pozwoli konwertować pliki PDF na zwykłe pliki tekstowe. Zasadniczo wyodrębnia dane tekstowe z plików PDF. To oprogramowanie jest bezpłatne i jest domyślnie dołączane do wielu dystrybucji Gnu / Linuksa.
W kolejnych wierszach zobaczymy narzędzie dla terminala, ale w tym samym celu, aby wyodrębnić tekst z plików PDF możesz także użyć narzędzia graficznego, takiego jak Kaliber. Warto zaznaczyć, że zarówno narzędzie graficzne, jak i to, które możemy wykorzystać w terminalu, nie mogą wyodrębnić tekstu, jeśli plik PDF składa się z obrazów (fotografie, zeskanowane obrazy książek itp.).
W większości dystrybucji Gnu / Linuksa pdftotext jest częścią pakietu poppler-utils. To narzędzie jest narzędziem wiersza poleceń, które konwertować pliki PDF na zwykły tekst. Znajdziemy w nim wiele dostępnych opcji, w tym możliwość określenia zakresu stron do konwersji, możliwość jak najlepszego zachowania oryginalnego fizycznego układu tekstu, ustawianie końcówek linii, a nawet pracę z chronionymi hasłem plikami PDF .
Zainstaluj pdftotext na Ubuntu
Aby zainstalować to narzędzie w naszym systemie Ubuntu, na wypadek, gdybyś go jeszcze nie zainstalował, wystarczy otworzyć terminal (Ctrl + Alt + T) i napisać w nim następujące polecenie zainstaluj poppler-utils:
sudo apt install poppler-utils
Jak używać pdftotext
Konwertuj plik PDF na tekst
Po zainstalowaniu pakietu w naszym systemie operacyjnym możemy przekonwertować plik PDF na zwykły tekst. Możemy staraj się zachować oryginalny projekt, korzystając z opcji -układ za pomocą polecenia, ale możemy też spróbować bez niego. W terminalu (Ctrl + Alt + T) polecenie do użycia byłoby następujące:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
W poprzednim poleceniu musielibyśmy wymienić pdf-input.pdf z nazwą interesującego nas pliku PDF oraz pdf-output.txt przez nazwę pliku TXT, w którym chcemy zapisać tekst wejściowego pliku PDF. Jeśli nie określimy żadnego wyjściowego pliku tekstowego, pdftotext automatycznie nada plikowi taką samą nazwę jak oryginalny plik PDF, ale z rozszerzeniem txt. Inną rzeczą, którą można dodać do polecenia, będą ścieżki przed nazwami plików, jeśli to konieczne (~ / Dokumenty / pdf-input.pdf).
Konwertuj tylko zakres stron PDF na tekst
Jeśli nie jesteśmy zainteresowani konwersją całego pliku PDF, a chcemy zawęź zakres stron PDF do konwersji na tekst tam będzie użyj opcji -f (pierwsza strona do konwersji) I -l (ostatnia strona do konwersji), po którym następuje każda opcja z numerem strony. Polecenie do użycia wyglądałoby mniej więcej tak:
pdftotext -layout -f P -l U pdf-entrada.pdf
W poprzednim poleceniu będziesz musiał zamień litery P i U na numer pierwszej i ostatniej strony wyciągać. Nazwa pdf-input.pdf Będziemy też musieli to zmienić i nadać mu nazwę pliku PDF, z którym chcemy pracować.
Użyj znaków końca wiersza
To będziemy mogli określić używając -eol, a następnie mac, dos lub unix. Następujące polecenie doda końcówki linii unixa:
pdftotext -layout -eol unix pdf-entrada.pdf
Pomoc
do sprawdź dostępne opcje, uruchom stronę podręcznika:
man pdftotext
Możesz również zapoznaj się z opcją pomocy komendą:
pdftotext --help
Konwertuj pliki PDF z folderu za pomocą pętli Bash FOR
W przypadku, gdy chcemy przekonwertować wszystkie pliki PDF w folderze na pliki tekstowe, pdftotext nie obsługuje konwersji wsadowej z formatu PDF na tekst. To będziemy mogli to zrobić za pomocą pętli Bash FOR w terminalu (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
do więcej informacji o pdftotext, możesz zapoznać się z witryna projektu. Jeśli wolisz nie wpisywać poleceń w terminalu, możesz również użyj a usługa online aby uzyskać ten sam wynik.
tak, cóż, to działa, ale czasami muszę zrobić OCR lub skorzystać z Libre Office Draw.
Ponadto istnieje wiele edytorów PDF. i najwyraźniej nie dzieje się tak w przypadku tekstowania obrazów, więc nie uważam tego za praktyczne.
Libre Office Draw jest intuicyjny i praktyczny.