במאמר הבא אנו נסתכל על pdftotext. זהו כלי שורת פקודה בקוד פתוח שיאפשר לנו להמיר קבצי PDF לקבצי טקסט רגיל. בעיקרון מה שהוא עושה זה לחלץ את נתוני הטקסט מקבצי ה- PDF. תוכנה זו חינמית ונכללת כברירת מחדל בהפצות רבות של Gnu / Linux.
בשורות הבאות אנו הולכים לראות כלי למסוף, אך לאותה מטרה של חילוץ טקסט מקובצי PDF אתה יכול גם להשתמש בכלי גרפי כמו קליבר. ראוי לציין כי גם הכלי הגרפי וגם זה בו נוכל להשתמש במסוף, הם לא יכולים לחלץ את הטקסט אם ה- PDF עשוי מתמונות (תצלומים, תמונות ספרים סרוקות וכו '.).
ברוב הפצות GNU / Linux, pdftotext כלול כחלק מחבילת poppler-utils. כלי זה הוא כלי שורת פקודה להמיר קבצי PDF לטקסט רגיל. בה אנו נמצא אפשרויות רבות זמינות, כולל יכולת לציין את טווח העמודים להמרה, את היכולת לשמור על הפריסה הפיזית המקורית של הטקסט, ככל האפשר, להגדיר סיומות שורה ואף לעבוד עם קבצי PDF המוגנים באמצעות סיסמה. .
התקן את pdftotext באובונטו
כדי להתקין את הכלי הזה במערכת אובונטו שלנו, במקרה שעדיין לא מותקן בו, אתה רק צריך לפתוח מסוף (Ctrl + Alt + T) ולכתוב בו את הפקודה הבאה התקן כלים poppler:
sudo apt install poppler-utils
כיצד להשתמש ב- pdftotext
המרת קובץ PDF לטקסט
לאחר שהתקנת החבילה במערכת ההפעלה שלנו, נוכל להמיר קובץ PDF לטקסט רגיל. פחית נסה לשמור על העיצוב המקורי באמצעות האפשרות -מַעֲרָך עם הפקודה, אבל אנחנו יכולים גם לנסות בלעדיה. במסוף (Ctrl + Alt + T) הפקודה לשימוש תהיה הבאה:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
בפקודה הקודמת נצטרך להחליף pdf-input.pdf עם שם קובץ ה- PDF שאנו מעוניינים להמיר, וכן pdf-output.txt לפי שם קובץ ה- TXT בו אנו רוצים לשמור את הטקסט של קובץ ה- PDF הקלט. אם לא נציין קובץ טקסט פלט כלשהו, pdftotext ישים את הקובץ באופן אוטומטי באותו שם כמו קובץ ה- PDF המקורי אך עם סיומת txt. דבר נוסף שיכול להיות מעניין להוסיף לפקודה יהיו הנתיבים לפני שמות הקבצים במידת הצורך (~ / מסמכים / pdf-input.pdf).
המר רק טווח של דפי PDF לטקסט
אם אנחנו לא מעוניינים להמיר את כל קובץ ה- PDF, ואנחנו רוצים צמצם טווח של דפי PDF להמרה לטקסט יהיה השתמש באפשרות -f (עמוד ראשון להמרה) ו -l (העמוד האחרון להמרה) ואחריו כל אפשרות עם מספר העמוד. הפקודה להשתמש תהיה משהו כמו הבא:
pdftotext -layout -f P -l U pdf-entrada.pdf
בפקודה הקודמת תצטרך החלף את האותיות P ו- U במספרי העמודים הראשונים והאחרונים לחלץ. השם של pdf-input.pdf נצטרך לשנות אותו ולתת לו את שם קובץ ה- PDF איתו אנו רוצים לעבוד.
השתמש בתווי סוף שורה
נוכל לציין זאת באמצעות -eol ואחריו mac, dos או unix. הפקודה הבאה תוסיף סיומות של שורות יוניקס:
pdftotext -layout -eol unix pdf-entrada.pdf
עזרה
כדי בדוק אפשרויות זמינות, הפעל את דף האיש:
man pdftotext
אתה יכול גם התייעץ עם אפשרות העזרה עם הפקודה:
pdftotext --help
המרת קבצי PDF מתיקיה באמצעות לולאת Bash FOR
במקרה שנרצה להמיר את כל קבצי ה- PDF בתיקיה לקבצי טקסט, pdftotext אינו תומך בהמרת אצווה מ- PDF לטקסט. זה נוכל לעשות זאת באמצעות לולאת Bash FOR במסוף (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
כדי מידע נוסף על pdftotext, אתה יכול להתייעץ עם אתר הפרויקט. במקרה שאתה מעדיף שלא יהיה עליך להקליד פקודות במסוף, תוכל גם השתמש בא שירות מקוון כדי להשיג את אותה התוצאה.
כן, טוב זה עובד, אבל לפעמים אני צריך לעשות OCR או להשתמש ב- Libre Office Draw.
בנוסף ישנם עורכי pdf רבים. וכנראה שזה לא קורה לטקסט לתמונות, ולכן אני לא רואה את זה מעשי.
ו- Libre Office Draw הוא אינטואיטיבי ופרקטי.