Pdftotext, u beddelo PDF qoraal qoraalka ka soo baxa terminalka

ku saabsan pdftotext

Maqaalka soo socda waxaan ku eegeynaa pdftotext. Kani waa adeeg furan oo amarka furan ah oo noo oggolaan doona u beddel faylasha PDF faylasha qoraalka ee tooska ah. Asal ahaan waxay qabato waa soo saarida xogta qoraalka feylasha PDF. Software-kani waa mid bilaash ah oo waxaa loogu daray asal ahaan qaybo badan oo Gnu / Linux ah.

Khadadka soo socda waxaan ku arki doonnaa qalab loogu talagalay terminal-ka, laakiin isla ujeeddada laga leeyahay ee ah soo saarista qoraalka feylasha PDF sidoo kale waxaad isticmaali kartaa qalab garaaf ah sida Caliber. Waxaa xusid mudan in aaladda garaafka iyo tan aan ku isticmaali karno baarka, qoraalka ma soo saari karaan haddii PDF uu ka sameysan yahay sawirro (sawirro, sawirro buugaag la marsiiyey, iwm.).

Inta badan qeybinta Gnu / Linux, pdftotext waxaa lagu soo daray qeyb ka mid ah xirmada poppler-utils. Qalabkani waa adeeg amarka khadka amarka ah u rogo faylasha PDF qoraal cad. Dhexdeeda waxaan ka heli doonnaa fursado badan oo la heli karo, oo ay ku jiraan awoodda lagu tilmaami karo baaxadda bogagga si loogu beddelo, awoodda lagu hayo asalka muuqaalka guud ee qoraalka sida ugu macquulsan, loo dejiyo dhammaadka xarriiqda, iyo xitaa la shaqeynta feylasha PDF-ka ee sirta ilaaliya .

ku saabsan ka saar lambarka sirta ah ee la yaqaan pdf
Maqaalka laxiriira:
Ka saar lambarka sirta ah ee la yaqaan faylka PDF-ka ee Ubutu

Ku rakib pdftotext Ubuntu

Si aad ugu rakibto qalabkan nidaamkeena Ubuntu, haddii aadan horay u rakibin, waa inaad furtaa terminal (Ctrl + Alt + T) kuna qor amarka soo socda rakibi poppler-maacuunta:

ku rakib maacuunta poppler

sudo apt install poppler-utils

Sida loo isticmaalo pdftotext

U badal faylka PDF qoraalka

Marka aan xirmada ku rakibno nidaamkayaga qalliinka, waxaan u rogi karnaa faylka PDF-ka qoraal toosan. Karaa isku day inaad haysatid naqshaddii asalka ahayd adoo adeegsanaya ikhtiyaarka -qorshe amarka, laakiin waxaan sidoo kale isku dayi karnaa la'aanteed. Terminalka (Ctrl + Alt + T) amarka la adeegsanayo wuxuu noqonayaa kuwan soo socda:

pdftotext badalo pdf qoraal fudud

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Amarkii hore waa inaad bedesho pdf-gelinta.pdf iyadoo la adeegsanayo magaca faylka PDF-ka ah ee aan xiiseyneyno inaan u beddelno, iyo pdf-saarka.txt magaca faylka TXT ee aan dooneyno inaan ku keydinno qoraalka feylka gelinta PDF. Haddii aynaan cayimin wax fayl qoraal ah oo wax soo saar ah, pdftotext ayaa si otomaatig ah u magacaabi doona faylka oo leh isla magaca faylka asalka ah ee PDF laakiin leh txt kordhin. Waxyaabaha kale ee xiisaha leh in lagu daro amarka waxay noqon doonaan waddooyinka kahor faylasha magacyada haddii loo baahdo (~ / Documents / pdf-input.pdf).

U beddel kaliya bogag badan oo PDF ah qoraal

Haddii aynaan xiisaynaynin beddelidda faylka PDF oo dhan, waana rabnaa soo koobo bogag badan oo PDF ah si loogu beddelo qoraalka waxaa jiri doona isticmaal -f xulasho (bogga koowaad si loogu beddelo) y -l (bogga ugu dambeeya si loogu beddelo) oo ay ku xigto ikhtiyaar kasta oo leh lambarka bogga. Amarka isticmaalka wuxuu noqon lahaa wax la mid ah kuwan soo socda:

pdftotext -layout -f P -l U pdf-entrada.pdf

ku keydi qaab qoraal ah tiro bogag ah oo pdf ah

Amarkii hore waa inaad ku ku beddel xarfaha P iyo U lambarrada koowaad iyo kan ugu dambeeya si loo soo saaro. Magaca pdf-gelinta.pdf Waxaan sidoo kale u baahanahay inaan badalo oo aan siino magaca feylka PDF ee aan rabno inaan ku shaqeyno.

Adeegso jilayaasha dhamaadka khadka

Tan waxaan awood u yeelan doonnaa inaan qeexno isticmaalka -eol oo ay ku xigto mac, dos ama unix. Amarka soo socda ayaa ku dari doona dhamaadka xariiqa unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Caawin

para hubi xulashooyinka jira, ordo ninka bogga:

nin pdftotext

man pdftotext

Waxaad sidoo kale sameyn kartaa la tasho ikhtiyaarka caawinta iyadoo amarka:

caawin amarka pdftotext

pdftotext --help

Ka beddel faylasha PDF faylka galka adoo isticmaalaya Bash FOR loop

Haddii aan rabno inaan u beddelno dhammaan faylasha PDF ee galka ku jira faylasha qoraalka, pdftotext ma taageerto beddelida Dufcaddii ka PDF qoraal. Tani waxaan awoodi doonnaa inaan ku sameyno annaga oo isticmaalna Bash FOR loop boosteejada (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

para macluumaad dheeraad ah oo ku saabsan pdftotext, waad la tashan kartaa websaydhka mashruuca. Haddii ay dhacdo inaad doorbidid inaadan ku qorin amarrada qaybta, sidoo kale waad sameyn kartaa isticmaal a adeegga internetka si loo helo isla natiijada.


Ka tag faalladaada

cinwaanka email aan la daabacin doonaa. Beeraha loo baahan yahay waxaa lagu calaamadeeyay la *

*

*

  1. Masuul ka ah xogta: Miguel Ángel Gatón
  2. Ujeedada xogta: Xakamaynta SPAM, maaraynta faallooyinka.
  3. Sharci: Oggolaanshahaaga
  4. Isgaarsiinta xogta: Xogta looma gudbin doono dhinacyada saddexaad marka laga reebo waajibaadka sharciga ah.
  5. Kaydinta xogta: Macluumaadka ay martigelisay Shabakadaha Occentus (EU)
  6. Xuquuqda: Waqti kasta oo aad xadidi karto, soo ceshan karto oo tirtiri karto macluumaadkaaga.

  1.   Moypher Nightkrelin dijo

    haa, sifiican ayey u shaqeysaa, laakiin mararka qaar waa inaan sameeyaa OCR ama aan adeegsadaa Libre Office Draw.

    Intaas waxaa sii dheer tafatirayaal badan oo pdf ah. oo sida muuqata tani kuma dhacdo in qoraal lagu qoro sawirada, marka anigu uma arko inay tahay mid wax ku ool ah.

    Iyo Libre Office Draw waa mid macquul ah oo wax ku ool ah.