Seuraavassa artikkelissa aiomme tarkastella pdftotekstiä. Tämä on avoimen lähdekoodin komentorivin apuohjelma, jonka avulla voimme muuntaa PDF-tiedostot pelkkiksi tekstitiedostoiksi. Pohjimmiltaan se poimii tekstitiedot PDF-tiedostoista. Tämä ohjelmisto on ilmainen ja sisältyy oletusarvoisesti moniin Gnu / Linux-jakeluihin.
Seuraavilla riveillä näemme työkalun päätelaitteelle, mutta samaan tarkoitukseen tekstin poimimiseksi PDF-tiedostoista voit käyttää myös graafista työkalua, kuten kaliiperi. On syytä huomata, että sekä graafinen työkalu että se, jota voimme käyttää terminaalissa, he eivät voi purkaa tekstiä, jos PDF on tehty kuvista (valokuvat, skannatut kirjakuvat jne.).
Useimmissa Gnu / Linux-jakeluissa pdftotext sisältyy poppler-utils-pakettiin. Tämä työkalu on komentorivin apuohjelma muuntaa PDF-tiedostot puhtaaksi tekstiksi. Sieltä löydämme monia vaihtoehtoja, kuten kyvyn määrittää muunnettava sivualue, kyky pitää tekstin alkuperäinen fyysinen ulkoasu mahdollisimman hyvin, asettaa rivin päätteet ja jopa työskennellä salasanasuojattujen PDF-tiedostojen kanssa .
Asenna pdftotext Ubuntuun
Jos haluat asentaa tämän työkalun Ubuntu-järjestelmäämme, jos sinulla ei vielä ole sitä asennettuna, sinun tarvitsee vain avata pääte (Ctrl + Alt + T) ja kirjoittaa seuraava komento siihen asenna poppler-utils:
sudo apt install poppler-utils
Kuinka käyttää pdftotextia
Muunna PDF-tiedosto tekstiksi
Kun paketti on asennettu käyttöjärjestelmäämme, voimme muuntaa PDF-tiedoston puhtaaksi tekstiksi. Voi yritä säilyttää alkuperäinen muotoilu vaihtoehdon avulla -layout komennolla, mutta voimme kokeilla myös ilman sitä. Terminaalissa (Ctrl + Alt + T) käytettävä komento olisi seuraava:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Edellisessä komennossa meidän olisi korvattava pdf-input.pdf - PDF-tiedoston nimi, jonka olemme kiinnostuneita muuntamaan, ja pdf-output.txt TXT-tiedoston nimellä, johon haluamme tallentaa syötetyn PDF-tiedoston tekstin. Jos emme määritä mitään tekstitiedostoa, pdftotext nimeää tiedoston automaattisesti samalla nimellä kuin alkuperäinen PDF-tiedosto, mutta txt-laajennuksella. Toinen asia, joka voi olla mielenkiintoista lisätä komentoon, ovat polut ennen tiedostojen nimiä tarvittaessa (~ / Asiakirjat / pdf-input.pdf).
Muunna vain joukko PDF-sivuja tekstiksi
Jos emme ole kiinnostuneita koko PDF-tiedoston muuntamisesta, ja haluamme rajaa PDF-sivujen alue muunnettavaksi tekstiksi Siellä on käytä -f -vaihtoehtoa (ensimmäinen muunnettava sivu) Ja -l (viimeinen muunnettava sivu), jota seuraa kukin vaihtoehto sivunumerolla. Käytettävä komento olisi jotain seuraavaa:
pdftotext -layout -f P -l U pdf-entrada.pdf
Edellisessä komennossa sinun on korvaa kirjaimet P ja U ensimmäisellä ja viimeisellä sivunumerolla irrottaa. Nimi pdf-input.pdf Meidän on myös muutettava se ja annettava sille PDF-tiedoston nimi, jonka kanssa haluamme työskennellä.
Käytä rivin lopun merkkejä
Tämän voimme täsmentää käyttämällä -eolia, jota seuraa mac, dos tai unix. Seuraava komento lisää unix-rivin päätteet:
pdftotext -layout -eol unix pdf-entrada.pdf
Auttaa
että tarkista käytettävissä olevat vaihtoehdot, aja man-sivu:
man pdftotext
Voit myös tutustu ohjevaihtoehtoon komennolla:
pdftotext --help
Muunna PDF-tiedostot kansiosta Bash FOR -silmukalla
Jos haluamme muuntaa kaikki kansiossa olevat PDF-tiedostot tekstitiedostoiksi, pdftotext ei tue erämuuntamista PDF: stä tekstiksi. tämä voimme tehdä sen käyttämällä Bash FOR -silmukkaa terminaalissa (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
että lisätietoja pdftotextistä, voit tutustua projektin verkkosivusto. Jos et halua sinun tarvitse kirjoittaa komentoja päätelaitteeseen, voit myös käytä a verkkopalvelu saadaksesi saman tuloksen.
kyllä, se toimii, mutta joskus minun on tehtävä tekstintunnistus tai käytettävä Libre Office Draw -sovellusta.
Lisäksi on monia pdf-toimittajia. ja ilmeisesti näin ei tapahdu kuvien tekstittämisessä, joten en näe sitä käytännöllisenä
Ja Libre Office Draw on intuitiivinen ja käytännöllinen.