Pdftotext, 터미널에서 PDF를 텍스트로 변환

pdftotext 정보

다음 기사에서는 pdftotext를 살펴 보겠습니다. 이것은 우리가 할 수있는 오픈 소스 명령 줄 유틸리티입니다. PDF 파일을 일반 텍스트 파일로 변환. 기본적으로 PDF 파일에서 텍스트 데이터를 추출합니다. 이 소프트웨어는 무료이며 많은 Gnu / Linux 배포판에 기본적으로 포함되어 있습니다.

다음 줄에서 우리는 터미널을위한 도구를 볼 것입니다. 그러나 PDF 파일에서 텍스트를 추출하는 것과 같은 목적을 위해 다음과 같은 그래픽 도구를 사용할 수도 있습니다. 구경. 그래픽 도구와 터미널에서 사용할 수있는 도구는 모두 PDF가 이미지로 만들어진 경우 텍스트를 추출 할 수 없습니다. (사진, 스캔 한 책 이미지 등).

대부분의 Gnu / Linux 배포판에서 pdftotext는 poppler-utils 패키지의 일부로 포함되어 있습니다.. 이 도구는 다음과 같은 명령 줄 유틸리티입니다. PDF 파일을 일반 텍스트로 변환. 여기에는 변환 할 페이지 범위를 지정하는 기능, 텍스트의 원래 물리적 레이아웃을 가능한 한 최상으로 유지하는 기능, 줄 끝을 설정하는 기능, 암호로 보호 된 PDF 파일로 작업하는 기능 등 사용 가능한 많은 옵션이 있습니다. .

pdf에서 알려진 암호를 제거하는 방법
관련 기사 :
Ubutu의 PDF 파일에서 알려진 암호 제거

Ubuntu에 pdftotext 설치

이 도구를 Ubuntu 시스템에 설치하려면 아직 설치하지 않은 경우 터미널을 열고 (Ctrl + Alt + T) 다음 명령을 입력하면됩니다. poppler-utils 설치:

poppler 유틸리티 설치

sudo apt install poppler-utils

pdftotext 사용 방법

PDF 파일을 텍스트로 변환

운영 체제에 패키지가 설치되면 PDF 파일을 일반 텍스트로 변환 할 수 있습니다. 우리는 할 수 있습니다 옵션을 사용하여 원래 디자인을 유지하십시오. -나열한 것 명령을 사용하지만 명령 없이도 시도 할 수 있습니다. 터미널 (Ctrl + Alt + T)에서 사용할 명령은 다음과 같습니다.

pdftotext pdf를 일반 텍스트로 변환

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

이전 명령에서 우리는 pdf-input.pdf 변환하려는 PDF 파일의 이름과 함께 pdf-output.txt 입력 PDF 파일의 텍스트를 저장할 TXT 파일의 이름으로. 출력 텍스트 파일을 지정하지 않으면 pdftotext는 원본 PDF 파일과 이름은 같지만 확장자는 txt 인 파일 이름을 자동으로 지정합니다.. 명령에 추가 할 흥미로운 또 다른 사항은 필요한 경우 파일 이름 앞의 경로입니다 (~ / 문서 / pdf-input.pdf).

PDF 페이지 범위 만 텍스트로 변환

전체 PDF 파일을 변환하는 데 관심이없고 PDF 페이지 범위를 좁혀 텍스트로 변환 있을 것이다 -f 옵션 사용 (변환 할 첫 페이지) 그리고 -l (변환 할 마지막 페이지) 다음에 페이지 번호가있는 각 옵션이 표시됩니다. 사용할 명령은 다음과 같습니다.

pdftotext -layout -f P -l U pdf-entrada.pdf

PDF의 주어진 페이지 수를 텍스트 형식으로 저장

이전 명령에서 다음을 수행해야합니다. 문자 P와 U를 첫 번째 및 마지막 페이지 번호로 바꿉니다. 추출합니다. 의 이름은 pdf-input.pdf 또한이를 변경하고 작업하려는 PDF 파일의 이름을 지정해야합니다.

줄 끝 문자 사용

이것은 우리가 지정할 수 있습니다 -eol 다음에 mac, dos 또는 unix 사용. 다음 명령은 유닉스 라인 엔딩을 추가합니다.

pdftotext -layout -eol unix pdf-entrada.pdf

도움

사용 가능한 옵션 확인, man 페이지를 실행하십시오.

남자 pdftotext

man pdftotext

너는 또한 할 수있다 도움말 옵션을 참조하십시오 다음 명령으로 :

도움말 명령 pdftotext

pdftotext --help

Bash FOR 루프를 사용하여 폴더에서 PDF 파일 변환

폴더의 모든 PDF 파일을 텍스트 파일로 변환하려는 경우, pdftotext는 PDF에서 텍스트로의 일괄 변환을 지원하지 않습니다.Bash FOR 루프를 사용하여 수행 할 수 있습니다. 터미널에서 (Ctrl + Alt + T) :

for file in *.pdf; do pdftotext -layout "$file"; done

pdftotext에 대한 추가 정보, 당신은 상담 할 수 있습니다 프로젝트 웹 사이트. 터미널에 명령을 입력하지 않으려면 다음을 수행 할 수도 있습니다. 사용 온라인 서비스 동일한 결과를 얻으려면.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.

  1.   모이 퍼 Nigthkrelin

    예, 잘 작동하지만 때로는 OCR을 수행하거나 Libre Office Draw를 사용해야합니다.

    또한 많은 PDF 편집기가 있습니다. 그리고 분명히 이것은 이미지 텍스트에 발생하지 않으므로 실용적이지 않습니다.

    Libre Office Draw는 직관적이고 실용적입니다.