ಮುಂದಿನ ಲೇಖನದಲ್ಲಿ ನಾವು pdftotext ಅನ್ನು ನೋಡಲಿದ್ದೇವೆ. ಇದು ಓಪನ್ ಸೋರ್ಸ್ ಆಜ್ಞಾ ಸಾಲಿನ ಉಪಯುಕ್ತತೆಯಾಗಿದ್ದು ಅದು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳನ್ನು ಸರಳ ಪಠ್ಯ ಫೈಲ್ಗಳಾಗಿ ಪರಿವರ್ತಿಸಿ. ಮೂಲತಃ ಅದು ಏನು ಮಾಡುವುದು ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳಿಂದ ಪಠ್ಯ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯುವುದು. ಈ ಸಾಫ್ಟ್ವೇರ್ ಉಚಿತ ಮತ್ತು ಅನೇಕ ಗ್ನು / ಲಿನಕ್ಸ್ ವಿತರಣೆಗಳಲ್ಲಿ ಪೂರ್ವನಿಯೋಜಿತವಾಗಿ ಸೇರಿಸಲ್ಪಟ್ಟಿದೆ.
ಮುಂದಿನ ಸಾಲುಗಳಲ್ಲಿ ನಾವು ಟರ್ಮಿನಲ್ಗಾಗಿ ಒಂದು ಸಾಧನವನ್ನು ನೋಡಲಿದ್ದೇವೆ, ಆದರೆ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳಿಂದ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯುವ ಅದೇ ಉದ್ದೇಶಕ್ಕಾಗಿ ನೀವು ಚಿತ್ರಾತ್ಮಕ ಸಾಧನವನ್ನು ಸಹ ಬಳಸಬಹುದು ಕ್ಯಾಲಿಬರ್. ಗಮನಿಸಬೇಕಾದ ಸಂಗತಿಯೆಂದರೆ ಚಿತ್ರಾತ್ಮಕ ಸಾಧನ ಮತ್ತು ಟರ್ಮಿನಲ್ನಲ್ಲಿ ನಾವು ಬಳಸಬಹುದಾದ ಸಾಧನ, ಪಿಡಿಎಫ್ ಚಿತ್ರಗಳಿಂದ ಮಾಡಲ್ಪಟ್ಟಿದ್ದರೆ ಅವರು ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ (s ಾಯಾಚಿತ್ರಗಳು, ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಸ್ತಕ ಚಿತ್ರಗಳು, ಇತ್ಯಾದಿ.).
ಹೆಚ್ಚಿನ ಗ್ನು / ಲಿನಕ್ಸ್ ವಿತರಣೆಗಳಲ್ಲಿ, pdftotext ಅನ್ನು ಪಾಪ್ಲರ್-ಯುಟಿಲ್ಸ್ ಪ್ಯಾಕೇಜಿನ ಭಾಗವಾಗಿ ಸೇರಿಸಲಾಗಿದೆ. ಈ ಉಪಕರಣವು ಆಜ್ಞಾ ಸಾಲಿನ ಉಪಯುಕ್ತತೆಯಾಗಿದೆ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳನ್ನು ಸರಳ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ. ಪರಿವರ್ತಿಸಲು ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸುವ ಸಾಮರ್ಥ್ಯ, ಪಠ್ಯದ ಮೂಲ ಭೌತಿಕ ವಿನ್ಯಾಸವನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಉತ್ತಮವಾಗಿ ಇರಿಸುವ ಸಾಮರ್ಥ್ಯ, ಸಾಲಿನ ಅಂತ್ಯಗಳನ್ನು ಹೊಂದಿಸುವುದು ಮತ್ತು ಪಾಸ್ವರ್ಡ್-ರಕ್ಷಿತ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು ಸೇರಿದಂತೆ ಹಲವು ಆಯ್ಕೆಗಳನ್ನು ನಾವು ಅದರಲ್ಲಿ ಕಾಣಬಹುದು. .
ಉಬುಂಟುನಲ್ಲಿ pdftotext ಅನ್ನು ಸ್ಥಾಪಿಸಿ
ಈ ಉಪಕರಣವನ್ನು ನಮ್ಮ ಉಬುಂಟು ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಸ್ಥಾಪಿಸಲು, ನೀವು ಅದನ್ನು ಈಗಾಗಲೇ ಸ್ಥಾಪಿಸದಿದ್ದರೆ, ನೀವು ಟರ್ಮಿನಲ್ ಅನ್ನು ತೆರೆಯಬೇಕು (Ctrl + Alt + T) ಮತ್ತು ಅದರಲ್ಲಿ ಈ ಕೆಳಗಿನ ಆಜ್ಞೆಯನ್ನು ಬರೆಯಿರಿ ಪಾಪ್ಲರ್-ಯುಟಿಲ್ಗಳನ್ನು ಸ್ಥಾಪಿಸಿ:
sudo apt install poppler-utils
Pdftotext ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು
ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ
ನಮ್ಮ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಂನಲ್ಲಿ ನಾವು ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿದ ನಂತರ, ನಾವು ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಸರಳ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಬಹುದು. ಕ್ಯಾನ್ ಆಯ್ಕೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಮೂಲ ವಿನ್ಯಾಸವನ್ನು ಇರಿಸಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಿ -ಲೆಔಟ್ ಆಜ್ಞೆಯೊಂದಿಗೆ, ಆದರೆ ನಾವು ಅದಿಲ್ಲದೆ ಪ್ರಯತ್ನಿಸಬಹುದು. ಟರ್ಮಿನಲ್ನಲ್ಲಿ (Ctrl + Alt + T) ಬಳಸಲು ಆಜ್ಞೆಯು ಈ ಕೆಳಗಿನಂತಿರುತ್ತದೆ:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
ಹಿಂದಿನ ಆಜ್ಞೆಯಲ್ಲಿ ನಾವು ಬದಲಾಯಿಸಬೇಕಾಗಿತ್ತು pdf-input.pdf ನಾವು ಪರಿವರ್ತಿಸಲು ಆಸಕ್ತಿ ಹೊಂದಿರುವ ಪಿಡಿಎಫ್ ಫೈಲ್ ಹೆಸರಿನೊಂದಿಗೆ, ಮತ್ತು pdf-output.txt ಇನ್ಪುಟ್ ಪಿಡಿಎಫ್ ಫೈಲ್ನ ಪಠ್ಯವನ್ನು ಉಳಿಸಲು ನಾವು ಬಯಸುವ ಟಿಎಕ್ಸ್ಟಿ ಫೈಲ್ ಹೆಸರಿನಿಂದ. ನಾವು ಯಾವುದೇ text ಟ್ಪುಟ್ ಪಠ್ಯ ಫೈಲ್ ಅನ್ನು ನಿರ್ದಿಷ್ಟಪಡಿಸದಿದ್ದರೆ, pdftotext ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಫೈಲ್ ಅನ್ನು ಮೂಲ ಪಿಡಿಎಫ್ ಫೈಲ್ನಂತೆಯೇ ಆದರೆ txt ವಿಸ್ತರಣೆಯೊಂದಿಗೆ ಹೆಸರಿಸುತ್ತದೆ. ಆಜ್ಞೆಗೆ ಸೇರಿಸಲು ಆಸಕ್ತಿದಾಯಕವಾದ ಇನ್ನೊಂದು ವಿಷಯವೆಂದರೆ ಅಗತ್ಯವಿದ್ದರೆ ಫೈಲ್ ಹೆಸರುಗಳ ಮೊದಲು ಇರುವ ಮಾರ್ಗಗಳು (Documents / ಡಾಕ್ಯುಮೆಂಟ್ಸ್ / ಪಿಡಿಎಫ್-ಇನ್ಪುಟ್.ಪಿಡಿಎಫ್).
ಪಿಡಿಎಫ್ ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ಮಾತ್ರ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ
ಸಂಪೂರ್ಣ ಪಿಡಿಎಫ್ ಫೈಲ್ ಅನ್ನು ಪರಿವರ್ತಿಸಲು ನಮಗೆ ಆಸಕ್ತಿ ಇಲ್ಲದಿದ್ದರೆ, ಮತ್ತು ನಾವು ಬಯಸುತ್ತೇವೆ ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಲು ಪಿಡಿಎಫ್ ಪುಟಗಳ ಶ್ರೇಣಿಯನ್ನು ಕಡಿಮೆ ಮಾಡಿ ಇರುತ್ತದೆ -f ಆಯ್ಕೆಯನ್ನು ಬಳಸಿ (ಪರಿವರ್ತಿಸುವ ಮೊದಲ ಪುಟ) ಮತ್ತು -l (ಪರಿವರ್ತಿಸಲು ಕೊನೆಯ ಪುಟ) ನಂತರ ಪುಟ ಸಂಖ್ಯೆಯೊಂದಿಗೆ ಪ್ರತಿ ಆಯ್ಕೆಯನ್ನು ಅನುಸರಿಸಿ. ಬಳಸಲು ಆಜ್ಞೆಯು ಈ ಕೆಳಗಿನಂತಿದೆ:
pdftotext -layout -f P -l U pdf-entrada.pdf
ಹಿಂದಿನ ಆಜ್ಞೆಯಲ್ಲಿ ನೀವು ಮಾಡಬೇಕಾಗುತ್ತದೆ ಪಿ ಮತ್ತು ಯು ಅಕ್ಷರಗಳನ್ನು ಮೊದಲ ಮತ್ತು ಕೊನೆಯ ಪುಟ ಸಂಖ್ಯೆಗಳೊಂದಿಗೆ ಬದಲಾಯಿಸಿ ಹೊರತೆಗೆಯಲು. ನ ಹೆಸರು pdf-input.pdf ನಾವು ಅದನ್ನು ಬದಲಾಯಿಸಬೇಕು ಮತ್ತು ನಾವು ಕೆಲಸ ಮಾಡಲು ಬಯಸುವ ಪಿಡಿಎಫ್ ಫೈಲ್ ಹೆಸರನ್ನು ನೀಡಬೇಕಾಗುತ್ತದೆ.
ಎಂಡ್-ಆಫ್-ಲೈನ್ ಅಕ್ಷರಗಳನ್ನು ಬಳಸಿ
ಇದನ್ನು ನಾವು ನಿರ್ದಿಷ್ಟಪಡಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ -eol ಬಳಸಿ ಮ್ಯಾಕ್, ಡಾಸ್ ಅಥವಾ ಯುನಿಕ್ಸ್. ಕೆಳಗಿನ ಆಜ್ಞೆಯು ಯುನಿಕ್ಸ್ ಲೈನ್ ಅಂತ್ಯಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ:
pdftotext -layout -eol unix pdf-entrada.pdf
ಸಹಾಯ
ಪ್ಯಾರಾ ಲಭ್ಯವಿರುವ ಆಯ್ಕೆಗಳನ್ನು ಪರಿಶೀಲಿಸಿ, ಮ್ಯಾನ್ ಪುಟವನ್ನು ಚಲಾಯಿಸಿ:
man pdftotext
ನೀವು ಸಹ ಮಾಡಬಹುದು ಸಹಾಯ ಆಯ್ಕೆಯನ್ನು ನೋಡಿ ಆಜ್ಞೆಯೊಂದಿಗೆ:
pdftotext --help
ಬ್ಯಾಷ್ ಫಾರ್ ಲೂಪ್ ಬಳಸಿ ಫೋಲ್ಡರ್ನಿಂದ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳನ್ನು ಪರಿವರ್ತಿಸಿ
ಒಂದು ವೇಳೆ ನಾವು ಫೋಲ್ಡರ್ನಲ್ಲಿರುವ ಎಲ್ಲಾ ಪಿಡಿಎಫ್ ಫೈಲ್ಗಳನ್ನು ಪಠ್ಯ ಫೈಲ್ಗಳಾಗಿ ಪರಿವರ್ತಿಸಲು ಬಯಸಿದರೆ, ಪಿಡಿಎಫ್ನಿಂದ ಪಠ್ಯಕ್ಕೆ ಬ್ಯಾಚ್ ಪರಿವರ್ತನೆಯನ್ನು ಪಿಡಿಎಫ್ಟೋಟೆಕ್ಸ್ಟ್ ಬೆಂಬಲಿಸುವುದಿಲ್ಲ. ಇದು ಬ್ಯಾಷ್ ಫಾರ್ ಲೂಪ್ ಬಳಸಿ ನಾವು ಅದನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ ಟರ್ಮಿನಲ್ನಲ್ಲಿ (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
ಪ್ಯಾರಾ pdftotext ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿ, ನೀವು ಸಮಾಲೋಚಿಸಬಹುದು ಪ್ರಾಜೆಕ್ಟ್ ವೆಬ್ಸೈಟ್. ಟರ್ಮಿನಲ್ನಲ್ಲಿ ಆಜ್ಞೆಗಳನ್ನು ಟೈಪ್ ಮಾಡದಿರಲು ನೀವು ಬಯಸಿದರೆ, ನೀವು ಸಹ ಮಾಡಬಹುದು ಬಳಸಿ ಆನ್ಲೈನ್ ಸೇವೆ ಅದೇ ಫಲಿತಾಂಶವನ್ನು ಪಡೆಯಲು.
ಹೌದು, ಅದು ಕೆಲಸ ಮಾಡುತ್ತದೆ, ಆದರೆ ಕೆಲವೊಮ್ಮೆ ನಾನು ಒಸಿಆರ್ ಮಾಡಬೇಕು ಅಥವಾ ಲಿಬ್ರೆ ಆಫೀಸ್ ಡ್ರಾ ಬಳಸಬೇಕಾಗುತ್ತದೆ.
ಇದಲ್ಲದೆ ಅನೇಕ ಪಿಡಿಎಫ್ ಸಂಪಾದಕರು ಇದ್ದಾರೆ. ಮತ್ತು ಸ್ಪಷ್ಟವಾಗಿ ಇದು ಚಿತ್ರಗಳನ್ನು ಪಠ್ಯ ಮಾಡಲು ಆಗುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ನಾನು ಅದನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಕಾಣುವುದಿಲ್ಲ.
ಮತ್ತು ಲಿಬ್ರೆ ಆಫೀಸ್ ಡ್ರಾ ಅರ್ಥಗರ್ಭಿತ ಮತ್ತು ಪ್ರಾಯೋಗಿಕವಾಗಿದೆ.