Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

programing

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

nasanasas 2020. 12. 8. 08:15

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

Java를 사용하여 PDF 파일에서 일부 텍스트 데이터를 읽고 싶습니다. 어떻게 할 수 있습니까?

PDFBox 는 제가이 목적을 위해 찾은 최고의 라이브러리입니다. 기본 텍스트 추출 만 수행하는 경우 포괄적이고 사용하기 매우 쉽습니다. 여기 에서 예제를 찾을 수 있습니다 .

페이지에서 설명하지만 한 가지주의해야 할 점은 setStartPage () 및 setEndPage ()를 사용할 때 시작 및 끝 인덱스가 모두 포함 된다는 것 입니다. 나는 처음에 그 설명을 건너 뛰었고, 왜 내가 전화를 할 때마다 한 페이지 이상의 페이지를 받고 있는지 깨닫는 데 시간이 걸렸습니다!

Itext 는 개인적으로 사용해 본 적이 없지만 C #에서도 작동하는 또 다른 대안입니다. PDFBox보다 낮은 수준이므로 기본 텍스트 추출 만 있으면 작업에 적합하지 않습니다.

Apache PDFBox를 사용하면 다음과 같이됩니다.

PDDocument document = PDDocument.load(new File("test.pdf"));
if (!document.isEncrypted()) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println("Text:" + text);
}
document.close();

PDFBox 에는 텍스트 추출 도구가 포함되어 있습니다 .

iText 는 텍스트 조작에 대해 더 낮은 수준의 지원을 제공하지만 텍스트 추출을 얻으려면 상당한 양의 코드를 작성해야합니다.

iText in Action 에는 사용 된 라이브러리 (섹션 18.2 : 텍스트 추출 및 편집)에 관계없이 PDF에서 텍스트 추출의 한계에 대한 좋은 개요와 라이브러리가 텍스트 추출을 지원하지 않는 이유에 대한 설득력있는 설명이 포함되어 있습니다. 간단히 말해 간단한 경우를 처리하는 코드를 작성하는 것은 비교적 쉽지만 일반적으로 PDF에서 텍스트를 추출하는 것은 기본적으로 불가능합니다.

참고 URL : https://stackoverflow.com/questions/4784825/how-to-read-pdf-files-using-java

'programing' 카테고리의 다른 글

최종 방법 조롱 (0)	2020.12.08
확인란이 선택되어 있는지 어떻게 확인합니까? (0)	2020.12.08
UIPageViewController 내의 슬라이딩 페이지 위에 UIPageControl 요소를 배치하는 방법은 무엇입니까? (0)	2020.12.07
Oracle 데이터베이스의 모든 시퀀스를 어떻게 얻을 수 있습니까? (0)	2020.12.07
포인터에 null 허용 여부 유형 지정자가 없습니다. (0)	2020.12.07

현재글Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

nasanasa

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

'programing' 카테고리의 다른 글

'programing'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

'programing' 카테고리의 다른 글

'programing'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역