Pdftotext, muunna PDF tekstiksi päätelaitteesta

noin pdftotext

Seuraavassa artikkelissa aiomme tarkastella pdftotekstiä. Tämä on avoimen lähdekoodin komentorivin apuohjelma, jonka avulla voimme muuntaa PDF-tiedostot pelkkiksi tekstitiedostoiksi. Pohjimmiltaan se poimii tekstitiedot PDF-tiedostoista. Tämä ohjelmisto on ilmainen ja sisältyy oletusarvoisesti moniin Gnu / Linux-jakeluihin.

Seuraavilla riveillä näemme työkalun päätelaitteelle, mutta samaan tarkoitukseen tekstin poimimiseksi PDF-tiedostoista voit käyttää myös graafista työkalua, kuten kaliiperi. On syytä huomata, että sekä graafinen työkalu että se, jota voimme käyttää terminaalissa, he eivät voi purkaa tekstiä, jos PDF on tehty kuvista (valokuvat, skannatut kirjakuvat jne.).

Useimmissa Gnu / Linux-jakeluissa pdftotext sisältyy poppler-utils-pakettiin. Tämä työkalu on komentorivin apuohjelma muuntaa PDF-tiedostot puhtaaksi tekstiksi. Sieltä löydämme monia vaihtoehtoja, kuten kyvyn määrittää muunnettava sivualue, kyky pitää tekstin alkuperäinen fyysinen ulkoasu mahdollisimman hyvin, asettaa rivin päätteet ja jopa työskennellä salasanasuojattujen PDF-tiedostojen kanssa .

noin poistaa tunnetun salasanan pdf-tiedostosta
Aiheeseen liittyvä artikkeli:
Poista tunnettu salasana Ubutun PDF-tiedostosta

Asenna pdftotext Ubuntuun

Jos haluat asentaa tämän työkalun Ubuntu-järjestelmäämme, jos sinulla ei vielä ole sitä asennettuna, sinun tarvitsee vain avata pääte (Ctrl + Alt + T) ja kirjoittaa seuraava komento siihen asenna poppler-utils:

asenna poppler-apuohjelmat

sudo apt install poppler-utils

Kuinka käyttää pdftotextia

Muunna PDF-tiedosto tekstiksi

Kun paketti on asennettu käyttöjärjestelmäämme, voimme muuntaa PDF-tiedoston puhtaaksi tekstiksi. Voi yritä säilyttää alkuperäinen muotoilu vaihtoehdon avulla -layout komennolla, mutta voimme kokeilla myös ilman sitä. Terminaalissa (Ctrl + Alt + T) käytettävä komento olisi seuraava:

pdftotext muuntaa pdf-tekstimuodoksi

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Edellisessä komennossa meidän olisi korvattava pdf-input.pdf - PDF-tiedoston nimi, jonka olemme kiinnostuneita muuntamaan, ja pdf-output.txt TXT-tiedoston nimellä, johon haluamme tallentaa syötetyn PDF-tiedoston tekstin. Jos emme määritä mitään tekstitiedostoa, pdftotext nimeää tiedoston automaattisesti samalla nimellä kuin alkuperäinen PDF-tiedosto, mutta txt-laajennuksella. Toinen asia, joka voi olla mielenkiintoista lisätä komentoon, ovat polut ennen tiedostojen nimiä tarvittaessa (~ / Asiakirjat / pdf-input.pdf).

Muunna vain joukko PDF-sivuja tekstiksi

Jos emme ole kiinnostuneita koko PDF-tiedoston muuntamisesta, ja haluamme rajaa PDF-sivujen alue muunnettavaksi tekstiksi Siellä on käytä -f -vaihtoehtoa (ensimmäinen muunnettava sivu) Ja -l (viimeinen muunnettava sivu), jota seuraa kukin vaihtoehto sivunumerolla. Käytettävä komento olisi jotain seuraavaa:

pdftotext -layout -f P -l U pdf-entrada.pdf

tallenna tekstimuodossa tietty määrä sivuja pdf-tiedostosta

Edellisessä komennossa sinun on korvaa kirjaimet P ja U ensimmäisellä ja viimeisellä sivunumerolla irrottaa. Nimi pdf-input.pdf Meidän on myös muutettava se ja annettava sille PDF-tiedoston nimi, jonka kanssa haluamme työskennellä.

Käytä rivin lopun merkkejä

Tämän voimme täsmentää käyttämällä -eolia, jota seuraa mac, dos tai unix. Seuraava komento lisää unix-rivin päätteet:

pdftotext -layout -eol unix pdf-entrada.pdf

Auttaa

että tarkista käytettävissä olevat vaihtoehdot, aja man-sivu:

mies pdftotext

man pdftotext

Voit myös tutustu ohjevaihtoehtoon komennolla:

ohje komento pdftotext

pdftotext --help

Muunna PDF-tiedostot kansiosta Bash FOR -silmukalla

Jos haluamme muuntaa kaikki kansiossa olevat PDF-tiedostot tekstitiedostoiksi, pdftotext ei tue erämuuntamista PDF: stä tekstiksi. tämä voimme tehdä sen käyttämällä Bash FOR -silmukkaa terminaalissa (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

että lisätietoja pdftotextistä, voit tutustua projektin verkkosivusto. Jos et halua sinun tarvitse kirjoittaa komentoja päätelaitteeseen, voit myös käytä a verkkopalvelu saadaksesi saman tuloksen.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.

  1.   Moypher Nightkrelin dijo

    kyllä, se toimii, mutta joskus minun on tehtävä tekstintunnistus tai käytettävä Libre Office Draw -sovellusta.

    Lisäksi on monia pdf-toimittajia. ja ilmeisesti näin ei tapahdu kuvien tekstittämisessä, joten en näe sitä käytännöllisenä

    Ja Libre Office Draw on intuitiivinen ja käytännöllinen.