Pdftotext, bir PDF'yi terminalden metne dönüştürün

pdftotext hakkında

Bir sonraki makalede pdftotext'e bir göz atacağız. Bu, açık kaynak kodlu bir komut satırı yardımcı programıdır. PDF dosyalarını düz metin dosyalarına dönüştürme. Temel olarak yaptığı şey, metin verilerini PDF dosyalarından çıkarmaktır. Bu yazılım ücretsizdir ve birçok Gnu / Linux dağıtımına varsayılan olarak dahil edilmiştir.

Aşağıdaki satırlarda, terminal için bir araç göreceğiz, ancak aynı amaçla PDF dosyalarından metin çıkarmak için şunun gibi bir grafik aracı da kullanabilirsiniz: kalibre. Hem grafiksel aracın hem de terminalde kullanabileceğimiz aracın, PDF görüntülerden oluşuyorsa metni çıkaramazlar (fotoğraflar, taranmış kitap görüntüleri vb.).

Çoğu Gnu / Linux dağıtımında, pdftotext, poppler-utils paketinin bir parçası olarak bulunur. Bu araç bir komut satırı yardımcı programıdır. PDF dosyalarını düz metne dönüştürme. İçinde, dönüştürülecek sayfaların aralığını belirleme yeteneği, metnin orijinal fiziksel düzenini mümkün olduğu kadar koruma, satır sonlarını ayarlama ve hatta parola korumalı PDF dosyalarıyla çalışma gibi birçok seçenek bulacağız. .

bir pdf'den bilinen bir şifreyi kaldırmak hakkında
İlgili makale:
Ubutu'daki bir PDF dosyasından bilinen bir şifreyi kaldırın

Ubuntu'ya pdftotext yükleyin

Bu aracı Ubuntu sistemimize kurmak için, halihazırda yüklemediyseniz, sadece bir terminal açmanız (Ctrl + Alt + T) ve içine aşağıdaki komutu yazmanız yeterlidir. poppler-utils'i yükle:

poppler araçlarını yükle

sudo apt install poppler-utils

Pdftotext nasıl kullanılır

Bir PDF dosyasını metne dönüştürme

Paketi işletim sistemimize yükledikten sonra, bir PDF dosyasını düz metne dönüştürebiliriz. Yapabilmek seçeneği kullanarak orijinal tasarımı korumaya çalışın -Yerleşim komutla, ancak onsuz da deneyebiliriz. Bir terminalde (Ctrl + Alt + T) kullanılacak komut şu şekilde olacaktır:

pdftotext pdf'yi düz metne dönüştür

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Önceki komutta değiştirmemiz gerekecekti pdf-input.pdf dönüştürmek istediğimiz PDF dosyasının adıyla ve pdf-output.txt girdi PDF dosyasının metnini kaydetmek istediğimiz TXT dosyasının adına göre. Herhangi bir çıktı metin dosyası belirtmezsek, pdftotext dosyayı otomatik olarak orijinal PDF dosyasıyla aynı adla, ancak bir txt uzantısıyla adlandırır.. Komuta eklemek ilginç olabilecek başka bir şey, gerekirse dosya adlarından önceki yollar olacaktır (~ / Documents / pdf-input.pdf).

Yalnızca bir dizi PDF sayfasını metne dönüştürün

Tüm PDF dosyasını dönüştürmekle ilgilenmiyorsak ve metne dönüştürmek için bir dizi PDF sayfasını daraltın olacak -f seçeneğini kullanın (dönüştürülecek ilk sayfa) Y -l (dönüştürülecek son sayfa) ve ardından sayfa numarasına sahip her seçenek. Kullanılacak komut aşağıdaki gibi olacaktır:

pdftotext -layout -f P -l U pdf-entrada.pdf

bir pdf'nin belirli sayıda sayfasını metin biçiminde kaydedin

Önceki komutta yapmanız gerekecek P ve U harflerini ilk ve son sayfa numaralarıyla değiştirin ayıklamak. Adı pdf-input.pdf Ayrıca onu değiştirmemiz ve çalışmak istediğimiz PDF dosyasının adını vermemiz gerekecek.

Satır sonu karakterleri kullanın

Bunu belirleyebileceğiz -eol ve ardından mac, dos veya unix kullanarak. Aşağıdaki komut, unix satır sonlarını ekleyecektir:

pdftotext -layout -eol unix pdf-entrada.pdf

yardım

Daha mevcut seçenekleri kontrol edin, man sayfasını çalıştırın:

adam pdftotext

man pdftotext

Aynı zamanda olabilir yardım seçeneğine danışın komut ile:

yardım komutu pdftotext

pdftotext --help

Bash FOR döngüsü kullanarak bir klasördeki PDF dosyalarını dönüştürün

Bir klasördeki tüm PDF dosyalarını metin dosyalarına dönüştürmek istememiz durumunda, pdftotext, PDF'den metne toplu dönüştürmeyi desteklemez. bu Bash FOR döngüsü kullanarak bunu yapabileceğiz terminalde (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

Daha pdftotext hakkında daha fazla bilgidanışabilirsiniz proje web sitesi. Terminalde komut yazmak zorunda kalmamayı tercih ederseniz, şunu da yapabilirsiniz: kullanın çevrimiçi servis aynı sonucu almak için.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.

  1.   Moypher Nightkrelin dijo

    evet, işe yarıyor, ancak bazen OCR yapmam veya Libre Office Draw kullanmam gerekiyor.

    Ayrıca birçok pdf editörü var. ve görünüşe göre bu resimlere metin olarak gelmiyor, bu yüzden pratik görmüyorum.

    Ve Libre Office Draw sezgisel ve pratiktir.