Bir sonraki makalede pdftotext'e bir göz atacağız. Bu, açık kaynak kodlu bir komut satırı yardımcı programıdır. PDF dosyalarını düz metin dosyalarına dönüştürme. Temel olarak yaptığı şey, metin verilerini PDF dosyalarından çıkarmaktır. Bu yazılım ücretsizdir ve birçok Gnu / Linux dağıtımına varsayılan olarak dahil edilmiştir.
Aşağıdaki satırlarda, terminal için bir araç göreceğiz, ancak aynı amaçla PDF dosyalarından metin çıkarmak için şunun gibi bir grafik aracı da kullanabilirsiniz: kalibre. Hem grafiksel aracın hem de terminalde kullanabileceğimiz aracın, PDF görüntülerden oluşuyorsa metni çıkaramazlar (fotoğraflar, taranmış kitap görüntüleri vb.).
Çoğu Gnu / Linux dağıtımında, pdftotext, poppler-utils paketinin bir parçası olarak bulunur. Bu araç bir komut satırı yardımcı programıdır. PDF dosyalarını düz metne dönüştürme. İçinde, dönüştürülecek sayfaların aralığını belirleme yeteneği, metnin orijinal fiziksel düzenini mümkün olduğu kadar koruma, satır sonlarını ayarlama ve hatta parola korumalı PDF dosyalarıyla çalışma gibi birçok seçenek bulacağız. .
Ubuntu'ya pdftotext yükleyin
Bu aracı Ubuntu sistemimize kurmak için, halihazırda yüklemediyseniz, sadece bir terminal açmanız (Ctrl + Alt + T) ve içine aşağıdaki komutu yazmanız yeterlidir. poppler-utils'i yükle:
sudo apt install poppler-utils
Pdftotext nasıl kullanılır
Bir PDF dosyasını metne dönüştürme
Paketi işletim sistemimize yükledikten sonra, bir PDF dosyasını düz metne dönüştürebiliriz. Yapabilmek seçeneği kullanarak orijinal tasarımı korumaya çalışın -Yerleşim komutla, ancak onsuz da deneyebiliriz. Bir terminalde (Ctrl + Alt + T) kullanılacak komut şu şekilde olacaktır:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Önceki komutta değiştirmemiz gerekecekti pdf-input.pdf dönüştürmek istediğimiz PDF dosyasının adıyla ve pdf-output.txt girdi PDF dosyasının metnini kaydetmek istediğimiz TXT dosyasının adına göre. Herhangi bir çıktı metin dosyası belirtmezsek, pdftotext dosyayı otomatik olarak orijinal PDF dosyasıyla aynı adla, ancak bir txt uzantısıyla adlandırır.. Komuta eklemek ilginç olabilecek başka bir şey, gerekirse dosya adlarından önceki yollar olacaktır (~ / Documents / pdf-input.pdf).
Yalnızca bir dizi PDF sayfasını metne dönüştürün
Tüm PDF dosyasını dönüştürmekle ilgilenmiyorsak ve metne dönüştürmek için bir dizi PDF sayfasını daraltın olacak -f seçeneğini kullanın (dönüştürülecek ilk sayfa) Y -l (dönüştürülecek son sayfa) ve ardından sayfa numarasına sahip her seçenek. Kullanılacak komut aşağıdaki gibi olacaktır:
pdftotext -layout -f P -l U pdf-entrada.pdf
Önceki komutta yapmanız gerekecek P ve U harflerini ilk ve son sayfa numaralarıyla değiştirin ayıklamak. Adı pdf-input.pdf Ayrıca onu değiştirmemiz ve çalışmak istediğimiz PDF dosyasının adını vermemiz gerekecek.
Satır sonu karakterleri kullanın
Bunu belirleyebileceğiz -eol ve ardından mac, dos veya unix kullanarak. Aşağıdaki komut, unix satır sonlarını ekleyecektir:
pdftotext -layout -eol unix pdf-entrada.pdf
yardım
Daha mevcut seçenekleri kontrol edin, man sayfasını çalıştırın:
man pdftotext
Aynı zamanda olabilir yardım seçeneğine danışın komut ile:
pdftotext --help
Bash FOR döngüsü kullanarak bir klasördeki PDF dosyalarını dönüştürün
Bir klasördeki tüm PDF dosyalarını metin dosyalarına dönüştürmek istememiz durumunda, pdftotext, PDF'den metne toplu dönüştürmeyi desteklemez. bu Bash FOR döngüsü kullanarak bunu yapabileceğiz terminalde (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
Daha pdftotext hakkında daha fazla bilgidanışabilirsiniz proje web sitesi. Terminalde komut yazmak zorunda kalmamayı tercih ederseniz, şunu da yapabilirsiniz: kullanın çevrimiçi servis aynı sonucu almak için.
evet, işe yarıyor, ancak bazen OCR yapmam veya Libre Office Draw kullanmam gerekiyor.
Ayrıca birçok pdf editörü var. ve görünüşe göre bu resimlere metin olarak gelmiyor, bu yüzden pratik görmüyorum.
Ve Libre Office Draw sezgisel ve pratiktir.