Pdftotext, המרת PDF לטקסט מהטרמינל

על pdftotext

במאמר הבא אנו נסתכל על pdftotext. זהו כלי שורת פקודה בקוד פתוח שיאפשר לנו להמיר קבצי PDF לקבצי טקסט רגיל. בעיקרון מה שהוא עושה זה לחלץ את נתוני הטקסט מקבצי ה- PDF. תוכנה זו חינמית ונכללת כברירת מחדל בהפצות רבות של Gnu / Linux.

בשורות הבאות אנו הולכים לראות כלי למסוף, אך לאותה מטרה של חילוץ טקסט מקובצי PDF אתה יכול גם להשתמש בכלי גרפי כמו קליבר. ראוי לציין כי גם הכלי הגרפי וגם זה בו נוכל להשתמש במסוף, הם לא יכולים לחלץ את הטקסט אם ה- PDF עשוי מתמונות (תצלומים, תמונות ספרים סרוקות וכו '.).

ברוב הפצות GNU / Linux, pdftotext כלול כחלק מחבילת poppler-utils. כלי זה הוא כלי שורת פקודה להמיר קבצי PDF לטקסט רגיל. בה אנו נמצא אפשרויות רבות זמינות, כולל יכולת לציין את טווח העמודים להמרה, את היכולת לשמור על הפריסה הפיזית המקורית של הטקסט, ככל האפשר, להגדיר סיומות שורה ואף לעבוד עם קבצי PDF המוגנים באמצעות סיסמה. .

על הסרת סיסמה ידועה מקובץ PDF
Artaculo relacionado:
הסר סיסמה ידועה מקובץ PDF ב- Ubutu

התקן את pdftotext באובונטו

כדי להתקין את הכלי הזה במערכת אובונטו שלנו, במקרה שעדיין לא מותקן בו, אתה רק צריך לפתוח מסוף (Ctrl + Alt + T) ולכתוב בו את הפקודה הבאה התקן כלים poppler:

התקן כלים פופלרים

sudo apt install poppler-utils

כיצד להשתמש ב- pdftotext

המרת קובץ PDF לטקסט

לאחר שהתקנת החבילה במערכת ההפעלה שלנו, נוכל להמיר קובץ PDF לטקסט רגיל. פחית נסה לשמור על העיצוב המקורי באמצעות האפשרות -מַעֲרָך עם הפקודה, אבל אנחנו יכולים גם לנסות בלעדיה. במסוף (Ctrl + Alt + T) הפקודה לשימוש תהיה הבאה:

להמיר pdf לטקסט רגיל

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

בפקודה הקודמת נצטרך להחליף pdf-input.pdf עם שם קובץ ה- PDF שאנו מעוניינים להמיר, וכן pdf-output.txt לפי שם קובץ ה- TXT בו אנו רוצים לשמור את הטקסט של קובץ ה- PDF הקלט. אם לא נציין קובץ טקסט פלט כלשהו, ​​pdftotext ישים את הקובץ באופן אוטומטי באותו שם כמו קובץ ה- PDF המקורי אך עם סיומת txt. דבר נוסף שיכול להיות מעניין להוסיף לפקודה יהיו הנתיבים לפני שמות הקבצים במידת הצורך (~ / מסמכים / pdf-input.pdf).

המר רק טווח של דפי PDF לטקסט

אם אנחנו לא מעוניינים להמיר את כל קובץ ה- PDF, ואנחנו רוצים צמצם טווח של דפי PDF להמרה לטקסט יהיה השתמש באפשרות -f (עמוד ראשון להמרה) ו -l (העמוד האחרון להמרה) ואחריו כל אפשרות עם מספר העמוד. הפקודה להשתמש תהיה משהו כמו הבא:

pdftotext -layout -f P -l U pdf-entrada.pdf

לשמור בתבנית טקסט מספר נתון של עמודים בקובץ PDF

בפקודה הקודמת תצטרך החלף את האותיות P ו- U במספרי העמודים הראשונים והאחרונים לחלץ. השם של pdf-input.pdf נצטרך לשנות אותו ולתת לו את שם קובץ ה- PDF איתו אנו רוצים לעבוד.

השתמש בתווי סוף שורה

נוכל לציין זאת באמצעות -eol ואחריו mac, dos או unix. הפקודה הבאה תוסיף סיומות של שורות יוניקס:

pdftotext -layout -eol unix pdf-entrada.pdf

עזרה

כדי בדוק אפשרויות זמינות, הפעל את דף האיש:

איש pdftotext

man pdftotext

אתה יכול גם התייעץ עם אפשרות העזרה עם הפקודה:

עזרה בפקודה pdftotext

pdftotext --help

המרת קבצי PDF מתיקיה באמצעות לולאת Bash FOR

במקרה שנרצה להמיר את כל קבצי ה- PDF בתיקיה לקבצי טקסט, pdftotext אינו תומך בהמרת אצווה מ- PDF לטקסט. זה נוכל לעשות זאת באמצעות לולאת Bash FOR במסוף (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

כדי מידע נוסף על pdftotext, אתה יכול להתייעץ עם אתר הפרויקט. במקרה שאתה מעדיף שלא יהיה עליך להקליד פקודות במסוף, תוכל גם השתמש בא שירות מקוון כדי להשיג את אותה התוצאה.


השאירו את התגובה שלכם

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

*

*

  1. אחראי לנתונים: מיגל אנחל גטון
  2. מטרת הנתונים: בקרת ספאם, ניהול תגובות.
  3. לגיטימציה: הסכמתך
  4. מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
  5. אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
  6. זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

  1.   מויפר ניגטקרלין דיג'ו

    כן, טוב זה עובד, אבל לפעמים אני צריך לעשות OCR או להשתמש ב- Libre Office Draw.

    בנוסף ישנם עורכי pdf רבים. וכנראה שזה לא קורה לטקסט לתמונות, ולכן אני לא רואה את זה מעשי.

    ו- Libre Office Draw הוא אינטואיטיבי ופרקטי.