Pdftotext แปลง PDF เป็นข้อความจากเทอร์มินัล

เกี่ยวกับ pdftotext

ในบทความต่อไปเราจะมาดู pdftotext นี่คือยูทิลิตี้บรรทัดคำสั่งโอเพนซอร์สที่จะช่วยให้เราสามารถ แปลงไฟล์ PDF เป็นไฟล์ข้อความธรรมดา. โดยทั่วไปสิ่งที่ทำคือดึงข้อมูลข้อความจากไฟล์ PDF ซอฟต์แวร์นี้ให้บริการฟรีและรวมอยู่ในการแจกแจง Gnu / Linux จำนวนมากโดยค่าเริ่มต้น

ในบรรทัดต่อไปนี้เราจะเห็นเครื่องมือสำหรับเทอร์มินัล แต่เพื่อจุดประสงค์เดียวกันในการแยกข้อความออกจากไฟล์ PDF คุณยังสามารถใช้เครื่องมือกราฟิกเช่น ความสามารถ. เป็นที่น่าสังเกตว่าทั้งเครื่องมือกราฟิกและเครื่องมือที่เราสามารถใช้ในเทอร์มินัล พวกเขาไม่สามารถแยกข้อความได้หาก PDF นั้นสร้างมาจากรูปภาพ (รูปถ่ายภาพหนังสือที่สแกน ฯลฯ).

ในการแจกแจง Gnu / Linux ส่วนใหญ่ pdftotext รวมอยู่ในส่วนหนึ่งของแพ็คเกจ poppler-utils. เครื่องมือนี้เป็นยูทิลิตี้บรรทัดคำสั่งที่ แปลงไฟล์ PDF เป็นข้อความธรรมดา. ในนั้นเราจะพบตัวเลือกมากมายรวมถึงความสามารถในการระบุช่วงของหน้าที่จะแปลงความสามารถในการรักษาเค้าโครงทางกายภาพดั้งเดิมของข้อความให้ดีที่สุดตั้งค่าส่วนท้ายบรรทัดและแม้กระทั่งทำงานกับไฟล์ PDF ที่มีการป้องกันด้วยรหัสผ่าน .

เกี่ยวกับการลบรหัสผ่านที่ทราบออกจาก pdf
บทความที่เกี่ยวข้อง:
ลบรหัสผ่านที่ทราบออกจากไฟล์ PDF ใน Ubutu

ติดตั้ง pdftotext บน Ubuntu

ในการติดตั้งเครื่องมือนี้ในระบบ Ubuntu ของเราในกรณีที่คุณยังไม่ได้ติดตั้งคุณเพียงแค่เปิดเทอร์มินัล (Ctrl + Alt + T) และเขียนคำสั่งต่อไปนี้ลงใน ติดตั้ง poppler-utils:

ติดตั้งโปรแกรม poppler

sudo apt install poppler-utils

วิธีใช้ pdftotext

แปลงไฟล์ PDF เป็นข้อความ

เมื่อเราติดตั้งแพคเกจในระบบปฏิบัติการของเราแล้วเราสามารถแปลงไฟล์ PDF เป็นข้อความธรรมดาได้ สามารถ พยายามคงการออกแบบเดิมไว้โดยใช้ตัวเลือก - เค้าโครง ด้วยคำสั่ง แต่เราสามารถลองได้โดยไม่ต้องใช้มัน ในเทอร์มินัล (Ctrl + Alt + T) คำสั่งที่จะใช้จะเป็นดังต่อไปนี้:

pdftotext แปลง pdf เป็นข้อความธรรมดา

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

ในคำสั่งก่อนหน้านี้เราจะต้องแทนที่ pdf-input.pdf ด้วยชื่อไฟล์ PDF ที่เราสนใจจะแปลงและ pdf-output.txt ตามชื่อไฟล์ TXT ที่เราต้องการบันทึกข้อความของไฟล์ PDF ที่ป้อน หากเราไม่ระบุไฟล์ข้อความผลลัพธ์ใด ๆ pdftotext จะตั้งชื่อไฟล์โดยอัตโนมัติด้วยชื่อเดียวกับไฟล์ PDF ดั้งเดิม แต่มีนามสกุล txt. อีกสิ่งหนึ่งที่น่าสนใจในการเพิ่มคำสั่งคือพา ธ ก่อนชื่อไฟล์หากจำเป็น (~ / เอกสาร / pdf-input.pdf).

แปลงเฉพาะช่วงของหน้า PDF เป็นข้อความ

หากเราไม่สนใจที่จะแปลงไฟล์ PDF ทั้งหมดและเราต้องการ จำกัด หน้า PDF ให้แคบลงเพื่อแปลงเป็นข้อความ จะมี ใช้ตัวเลือก -f (หน้าแรกที่จะแปลง) และ -l (หน้าสุดท้ายในการแปลง) ตามด้วยแต่ละตัวเลือกพร้อมหมายเลขหน้า คำสั่งที่จะใช้จะเป็นดังนี้:

pdftotext -layout -f P -l U pdf-entrada.pdf

บันทึกในรูปแบบข้อความตามจำนวนหน้าที่กำหนดของ pdf

ในคำสั่งก่อนหน้านี้คุณจะต้องทำ แทนที่ตัวอักษร P และ U ด้วยหมายเลขหน้าแรกและหน้าสุดท้าย เพื่อแยก ชื่อของ pdf-input.pdf เราจะต้องเปลี่ยนและตั้งชื่อไฟล์ PDF ที่เราต้องการใช้งานด้วย

ใช้อักขระท้ายบรรทัด

สิ่งนี้เราจะสามารถระบุได้ ใช้ -eol ตามด้วย mac, dos หรือ unix. คำสั่งต่อไปนี้จะเพิ่มการสิ้นสุดบรรทัด unix:

pdftotext -layout -eol unix pdf-entrada.pdf

ช่วย

ไปยัง ตรวจสอบตัวเลือกที่มีอยู่เรียกใช้หน้าคน:

คน pdftotext

man pdftotext

คุณยังสามารถ ปรึกษาตัวเลือกความช่วยเหลือ ด้วยคำสั่ง:

ช่วยคำสั่ง pdftotext

pdftotext --help

แปลงไฟล์ PDF จากโฟลเดอร์โดยใช้ Bash FOR loop

ในกรณีที่เราต้องการแปลงไฟล์ PDF ทั้งหมดในโฟลเดอร์เป็นไฟล์ข้อความ pdftotext ไม่รองรับการแปลงแบตช์จาก PDF เป็นข้อความ นี้ เราจะสามารถทำได้โดยใช้ Bash FOR loop ในเทอร์มินัล (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

ไปยัง ข้อมูลเพิ่มเติมเกี่ยวกับ pdftotextคุณสามารถปรึกษา เว็บไซต์โครงการ. ในกรณีที่คุณไม่ต้องการพิมพ์คำสั่งในเทอร์มินัลคุณสามารถทำได้เช่นกัน ใช้ บริการออนไลน์ เพื่อให้ได้ผลลัพธ์เดียวกัน


แสดงความคิดเห็นของคุณ

อีเมล์ของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมายด้วย *

*

*

  1. ผู้รับผิดชอบข้อมูล: Miguel ÁngelGatón
  2. วัตถุประสงค์ของข้อมูล: ควบคุมสแปมการจัดการความคิดเห็น
  3. ถูกต้องตามกฎหมาย: ความยินยอมของคุณ
  4. การสื่อสารข้อมูล: ข้อมูลจะไม่ถูกสื่อสารไปยังบุคคลที่สามยกเว้นตามข้อผูกพันทางกฎหมาย
  5. การจัดเก็บข้อมูล: ฐานข้อมูลที่โฮสต์โดย Occentus Networks (EU)
  6. สิทธิ์: คุณสามารถ จำกัด กู้คืนและลบข้อมูลของคุณได้ตลอดเวลา

  1.   มอยเฟอร์ ไนท์เครลิน dijo

    ใช่มันใช้งานได้ดี แต่บางครั้งฉันต้องทำ OCR หรือใช้ Libre Office Draw

    นอกจากนี้ยังมีโปรแกรมแก้ไข pdf อีกมากมาย และเห็นได้ชัดว่าสิ่งนี้ไม่เกิดขึ้นกับข้อความในรูปภาพดังนั้นฉันจึงไม่เห็นว่ามันใช้งานได้จริง

    และ Libre Office Draw นั้นใช้งานง่ายและใช้งานได้จริง