Pdftotext, ಟರ್ಮಿನಲ್‌ನಿಂದ PDF ಅನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ

pdftotext ಬಗ್ಗೆ

ಮುಂದಿನ ಲೇಖನದಲ್ಲಿ ನಾವು pdftotext ಅನ್ನು ನೋಡಲಿದ್ದೇವೆ. ಇದು ಓಪನ್ ಸೋರ್ಸ್ ಆಜ್ಞಾ ಸಾಲಿನ ಉಪಯುಕ್ತತೆಯಾಗಿದ್ದು ಅದು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳನ್ನು ಸರಳ ಪಠ್ಯ ಫೈಲ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸಿ. ಮೂಲತಃ ಅದು ಏನು ಮಾಡುವುದು ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳಿಂದ ಪಠ್ಯ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯುವುದು. ಈ ಸಾಫ್ಟ್‌ವೇರ್ ಉಚಿತ ಮತ್ತು ಅನೇಕ ಗ್ನು / ಲಿನಕ್ಸ್ ವಿತರಣೆಗಳಲ್ಲಿ ಪೂರ್ವನಿಯೋಜಿತವಾಗಿ ಸೇರಿಸಲ್ಪಟ್ಟಿದೆ.

ಮುಂದಿನ ಸಾಲುಗಳಲ್ಲಿ ನಾವು ಟರ್ಮಿನಲ್ಗಾಗಿ ಒಂದು ಸಾಧನವನ್ನು ನೋಡಲಿದ್ದೇವೆ, ಆದರೆ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳಿಂದ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯುವ ಅದೇ ಉದ್ದೇಶಕ್ಕಾಗಿ ನೀವು ಚಿತ್ರಾತ್ಮಕ ಸಾಧನವನ್ನು ಸಹ ಬಳಸಬಹುದು ಕ್ಯಾಲಿಬರ್. ಗಮನಿಸಬೇಕಾದ ಸಂಗತಿಯೆಂದರೆ ಚಿತ್ರಾತ್ಮಕ ಸಾಧನ ಮತ್ತು ಟರ್ಮಿನಲ್‌ನಲ್ಲಿ ನಾವು ಬಳಸಬಹುದಾದ ಸಾಧನ, ಪಿಡಿಎಫ್ ಚಿತ್ರಗಳಿಂದ ಮಾಡಲ್ಪಟ್ಟಿದ್ದರೆ ಅವರು ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ (s ಾಯಾಚಿತ್ರಗಳು, ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಸ್ತಕ ಚಿತ್ರಗಳು, ಇತ್ಯಾದಿ.).

ಹೆಚ್ಚಿನ ಗ್ನು / ಲಿನಕ್ಸ್ ವಿತರಣೆಗಳಲ್ಲಿ, pdftotext ಅನ್ನು ಪಾಪ್ಲರ್-ಯುಟಿಲ್ಸ್ ಪ್ಯಾಕೇಜಿನ ಭಾಗವಾಗಿ ಸೇರಿಸಲಾಗಿದೆ. ಈ ಉಪಕರಣವು ಆಜ್ಞಾ ಸಾಲಿನ ಉಪಯುಕ್ತತೆಯಾಗಿದೆ ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳನ್ನು ಸರಳ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ. ಪರಿವರ್ತಿಸಲು ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸುವ ಸಾಮರ್ಥ್ಯ, ಪಠ್ಯದ ಮೂಲ ಭೌತಿಕ ವಿನ್ಯಾಸವನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಉತ್ತಮವಾಗಿ ಇರಿಸುವ ಸಾಮರ್ಥ್ಯ, ಸಾಲಿನ ಅಂತ್ಯಗಳನ್ನು ಹೊಂದಿಸುವುದು ಮತ್ತು ಪಾಸ್‌ವರ್ಡ್-ರಕ್ಷಿತ ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು ಸೇರಿದಂತೆ ಹಲವು ಆಯ್ಕೆಗಳನ್ನು ನಾವು ಅದರಲ್ಲಿ ಕಾಣಬಹುದು. .

ಪಿಡಿಎಫ್ನಿಂದ ತಿಳಿದಿರುವ ಪಾಸ್ವರ್ಡ್ ಅನ್ನು ತೆಗೆದುಹಾಕುವ ಬಗ್ಗೆ
ಸಂಬಂಧಿತ ಲೇಖನ:
ಉಬುಟುದಲ್ಲಿನ ಪಿಡಿಎಫ್ ಫೈಲ್‌ನಿಂದ ತಿಳಿದಿರುವ ಪಾಸ್‌ವರ್ಡ್ ಅನ್ನು ತೆಗೆದುಹಾಕಿ

ಉಬುಂಟುನಲ್ಲಿ pdftotext ಅನ್ನು ಸ್ಥಾಪಿಸಿ

ಈ ಉಪಕರಣವನ್ನು ನಮ್ಮ ಉಬುಂಟು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಸ್ಥಾಪಿಸಲು, ನೀವು ಅದನ್ನು ಈಗಾಗಲೇ ಸ್ಥಾಪಿಸದಿದ್ದರೆ, ನೀವು ಟರ್ಮಿನಲ್ ಅನ್ನು ತೆರೆಯಬೇಕು (Ctrl + Alt + T) ಮತ್ತು ಅದರಲ್ಲಿ ಈ ಕೆಳಗಿನ ಆಜ್ಞೆಯನ್ನು ಬರೆಯಿರಿ ಪಾಪ್ಲರ್-ಯುಟಿಲ್ಗಳನ್ನು ಸ್ಥಾಪಿಸಿ:

ಪಾಪ್ಲರ್ ಉಪಯುಕ್ತತೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿ

sudo apt install poppler-utils

Pdftotext ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು

ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ

ನಮ್ಮ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂನಲ್ಲಿ ನಾವು ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿದ ನಂತರ, ನಾವು ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಸರಳ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಬಹುದು. ಕ್ಯಾನ್ ಆಯ್ಕೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಮೂಲ ವಿನ್ಯಾಸವನ್ನು ಇರಿಸಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಿ -ಲೆಔಟ್ ಆಜ್ಞೆಯೊಂದಿಗೆ, ಆದರೆ ನಾವು ಅದಿಲ್ಲದೆ ಪ್ರಯತ್ನಿಸಬಹುದು. ಟರ್ಮಿನಲ್‌ನಲ್ಲಿ (Ctrl + Alt + T) ಬಳಸಲು ಆಜ್ಞೆಯು ಈ ಕೆಳಗಿನಂತಿರುತ್ತದೆ:

pdftotext ಪಿಡಿಎಫ್ ಅನ್ನು ಸರಳ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸುತ್ತದೆ

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

ಹಿಂದಿನ ಆಜ್ಞೆಯಲ್ಲಿ ನಾವು ಬದಲಾಯಿಸಬೇಕಾಗಿತ್ತು pdf-input.pdf ನಾವು ಪರಿವರ್ತಿಸಲು ಆಸಕ್ತಿ ಹೊಂದಿರುವ ಪಿಡಿಎಫ್ ಫೈಲ್ ಹೆಸರಿನೊಂದಿಗೆ, ಮತ್ತು pdf-output.txt ಇನ್ಪುಟ್ ಪಿಡಿಎಫ್ ಫೈಲ್ನ ಪಠ್ಯವನ್ನು ಉಳಿಸಲು ನಾವು ಬಯಸುವ ಟಿಎಕ್ಸ್ಟಿ ಫೈಲ್ ಹೆಸರಿನಿಂದ. ನಾವು ಯಾವುದೇ text ಟ್‌ಪುಟ್ ಪಠ್ಯ ಫೈಲ್ ಅನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸದಿದ್ದರೆ, pdftotext ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಫೈಲ್ ಅನ್ನು ಮೂಲ ಪಿಡಿಎಫ್ ಫೈಲ್‌ನಂತೆಯೇ ಆದರೆ txt ವಿಸ್ತರಣೆಯೊಂದಿಗೆ ಹೆಸರಿಸುತ್ತದೆ. ಆಜ್ಞೆಗೆ ಸೇರಿಸಲು ಆಸಕ್ತಿದಾಯಕವಾದ ಇನ್ನೊಂದು ವಿಷಯವೆಂದರೆ ಅಗತ್ಯವಿದ್ದರೆ ಫೈಲ್ ಹೆಸರುಗಳ ಮೊದಲು ಇರುವ ಮಾರ್ಗಗಳು (Documents / ಡಾಕ್ಯುಮೆಂಟ್ಸ್ / ಪಿಡಿಎಫ್-ಇನ್ಪುಟ್.ಪಿಡಿಎಫ್).

ಪಿಡಿಎಫ್ ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ಮಾತ್ರ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ

ಸಂಪೂರ್ಣ ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಪರಿವರ್ತಿಸಲು ನಮಗೆ ಆಸಕ್ತಿ ಇಲ್ಲದಿದ್ದರೆ, ಮತ್ತು ನಾವು ಬಯಸುತ್ತೇವೆ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಲು ಪಿಡಿಎಫ್ ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ಕಡಿಮೆ ಮಾಡಿ ಇರುತ್ತದೆ -f ಆಯ್ಕೆಯನ್ನು ಬಳಸಿ (ಪರಿವರ್ತಿಸುವ ಮೊದಲ ಪುಟ) ಮತ್ತು -l (ಪರಿವರ್ತಿಸಲು ಕೊನೆಯ ಪುಟ) ನಂತರ ಪುಟ ಸಂಖ್ಯೆಯೊಂದಿಗೆ ಪ್ರತಿ ಆಯ್ಕೆಯನ್ನು ಅನುಸರಿಸಿ. ಬಳಸಲು ಆಜ್ಞೆಯು ಈ ಕೆಳಗಿನಂತಿದೆ:

pdftotext -layout -f P -l U pdf-entrada.pdf

ಪಿಡಿಎಫ್‌ನ ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಯ ಪುಟಗಳನ್ನು ಪಠ್ಯ ಸ್ವರೂಪದಲ್ಲಿ ಉಳಿಸಿ

ಹಿಂದಿನ ಆಜ್ಞೆಯಲ್ಲಿ ನೀವು ಮಾಡಬೇಕಾಗುತ್ತದೆ ಪಿ ಮತ್ತು ಯು ಅಕ್ಷರಗಳನ್ನು ಮೊದಲ ಮತ್ತು ಕೊನೆಯ ಪುಟ ಸಂಖ್ಯೆಗಳೊಂದಿಗೆ ಬದಲಾಯಿಸಿ ಹೊರತೆಗೆಯಲು. ನ ಹೆಸರು pdf-input.pdf ನಾವು ಅದನ್ನು ಬದಲಾಯಿಸಬೇಕು ಮತ್ತು ನಾವು ಕೆಲಸ ಮಾಡಲು ಬಯಸುವ ಪಿಡಿಎಫ್ ಫೈಲ್ ಹೆಸರನ್ನು ನೀಡಬೇಕಾಗುತ್ತದೆ.

ಎಂಡ್-ಆಫ್-ಲೈನ್ ಅಕ್ಷರಗಳನ್ನು ಬಳಸಿ

ಇದನ್ನು ನಾವು ನಿರ್ದಿಷ್ಟಪಡಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ -eol ಬಳಸಿ ಮ್ಯಾಕ್, ಡಾಸ್ ಅಥವಾ ಯುನಿಕ್ಸ್. ಕೆಳಗಿನ ಆಜ್ಞೆಯು ಯುನಿಕ್ಸ್ ಲೈನ್ ಅಂತ್ಯಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ:

pdftotext -layout -eol unix pdf-entrada.pdf

ಸಹಾಯ

ಪ್ಯಾರಾ ಲಭ್ಯವಿರುವ ಆಯ್ಕೆಗಳನ್ನು ಪರಿಶೀಲಿಸಿ, ಮ್ಯಾನ್ ಪುಟವನ್ನು ಚಲಾಯಿಸಿ:

ಮನುಷ್ಯ pdftotext

man pdftotext

ನೀವು ಸಹ ಮಾಡಬಹುದು ಸಹಾಯ ಆಯ್ಕೆಯನ್ನು ನೋಡಿ ಆಜ್ಞೆಯೊಂದಿಗೆ:

ಸಹಾಯ ಆಜ್ಞೆ pdftotext

pdftotext --help

ಬ್ಯಾಷ್ ಫಾರ್ ಲೂಪ್ ಬಳಸಿ ಫೋಲ್ಡರ್‌ನಿಂದ ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳನ್ನು ಪರಿವರ್ತಿಸಿ

ಒಂದು ವೇಳೆ ನಾವು ಫೋಲ್ಡರ್‌ನಲ್ಲಿರುವ ಎಲ್ಲಾ ಪಿಡಿಎಫ್ ಫೈಲ್‌ಗಳನ್ನು ಪಠ್ಯ ಫೈಲ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸಲು ಬಯಸಿದರೆ, ಪಿಡಿಎಫ್‌ನಿಂದ ಪಠ್ಯಕ್ಕೆ ಬ್ಯಾಚ್ ಪರಿವರ್ತನೆಯನ್ನು ಪಿಡಿಎಫ್ಟೋಟೆಕ್ಸ್ಟ್ ಬೆಂಬಲಿಸುವುದಿಲ್ಲ. ಇದು ಬ್ಯಾಷ್ ಫಾರ್ ಲೂಪ್ ಬಳಸಿ ನಾವು ಅದನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಟರ್ಮಿನಲ್‌ನಲ್ಲಿ (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

ಪ್ಯಾರಾ pdftotext ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿ, ನೀವು ಸಮಾಲೋಚಿಸಬಹುದು ಪ್ರಾಜೆಕ್ಟ್ ವೆಬ್‌ಸೈಟ್. ಟರ್ಮಿನಲ್‌ನಲ್ಲಿ ಆಜ್ಞೆಗಳನ್ನು ಟೈಪ್ ಮಾಡದಿರಲು ನೀವು ಬಯಸಿದರೆ, ನೀವು ಸಹ ಮಾಡಬಹುದು ಬಳಸಿ ಆನ್ಲೈನ್ ​​ಸೇವೆ ಅದೇ ಫಲಿತಾಂಶವನ್ನು ಪಡೆಯಲು.


ನಿಮ್ಮ ಅಭಿಪ್ರಾಯವನ್ನು ಬಿಡಿ

ನಿಮ್ಮ ಈಮೇಲ್ ವಿಳಾಸ ಪ್ರಕಟವಾದ ಆಗುವುದಿಲ್ಲ. ಅಗತ್ಯವಿರುವ ಜಾಗ ಗುರುತಿಸಲಾಗಿದೆ *

*

*

  1. ಡೇಟಾಗೆ ಜವಾಬ್ದಾರಿ: ಮಿಗುಯೆಲ್ ಏಂಜೆಲ್ ಗಟಾನ್
  2. ಡೇಟಾದ ಉದ್ದೇಶ: ನಿಯಂತ್ರಣ SPAM, ಕಾಮೆಂಟ್ ನಿರ್ವಹಣೆ.
  3. ಕಾನೂನುಬದ್ಧತೆ: ನಿಮ್ಮ ಒಪ್ಪಿಗೆ
  4. ಡೇಟಾದ ಸಂವಹನ: ಕಾನೂನುಬದ್ಧ ಬಾಧ್ಯತೆಯನ್ನು ಹೊರತುಪಡಿಸಿ ಡೇಟಾವನ್ನು ಮೂರನೇ ವ್ಯಕ್ತಿಗಳಿಗೆ ಸಂವಹನ ಮಾಡಲಾಗುವುದಿಲ್ಲ.
  5. ಡೇಟಾ ಸಂಗ್ರಹಣೆ: ಆಕ್ಸೆಂಟಸ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (ಇಯು) ಹೋಸ್ಟ್ ಮಾಡಿದ ಡೇಟಾಬೇಸ್
  6. ಹಕ್ಕುಗಳು: ಯಾವುದೇ ಸಮಯದಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಮಾಹಿತಿಯನ್ನು ಮಿತಿಗೊಳಿಸಬಹುದು, ಮರುಪಡೆಯಬಹುದು ಮತ್ತು ಅಳಿಸಬಹುದು.

  1.   ಮೊಯಿಫರ್ ನಿಗ್ತ್ಕ್ರೆಲಿನ್ ಡಿಜೊ

    ಹೌದು, ಅದು ಕೆಲಸ ಮಾಡುತ್ತದೆ, ಆದರೆ ಕೆಲವೊಮ್ಮೆ ನಾನು ಒಸಿಆರ್ ಮಾಡಬೇಕು ಅಥವಾ ಲಿಬ್ರೆ ಆಫೀಸ್ ಡ್ರಾ ಬಳಸಬೇಕಾಗುತ್ತದೆ.

    ಇದಲ್ಲದೆ ಅನೇಕ ಪಿಡಿಎಫ್ ಸಂಪಾದಕರು ಇದ್ದಾರೆ. ಮತ್ತು ಸ್ಪಷ್ಟವಾಗಿ ಇದು ಚಿತ್ರಗಳನ್ನು ಪಠ್ಯ ಮಾಡಲು ಆಗುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ನಾನು ಅದನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಕಾಣುವುದಿಲ್ಲ.

    ಮತ್ತು ಲಿಬ್ರೆ ಆಫೀಸ್ ಡ್ರಾ ಅರ್ಥಗರ್ಭಿತ ಮತ್ತು ಪ್ರಾಯೋಗಿಕವಾಗಿದೆ.