programing

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?

nasanasas 2020. 12. 8. 08:15
반응형

Java를 사용하여 PDF 파일을 읽는 방법은 무엇입니까?


Java를 사용하여 PDF 파일에서 일부 텍스트 데이터를 읽고 싶습니다. 어떻게 할 수 있습니까?


PDFBox제가이 목적을 위해 찾은 최고의 라이브러리입니다. 기본 텍스트 추출 만 수행하는 경우 포괄적이고 사용하기 매우 쉽습니다. 여기 에서 예제를 찾을 수 있습니다 .

페이지에서 설명하지만 한 가지주의해야 할 점은 setStartPage () 및 setEndPage ()를 사용할 때 시작 및 끝 인덱스가 모두 포함 된다는 것 입니다. 나는 처음에 그 설명을 건너 뛰었고, 왜 내가 전화를 할 때마다 한 페이지 이상의 페이지를 받고 있는지 깨닫는 데 시간이 걸렸습니다!

Itext 는 개인적으로 사용해 본 적이 없지만 C #에서도 작동하는 또 다른 대안입니다. PDFBox보다 낮은 수준이므로 기본 텍스트 추출 만 있으면 작업에 적합하지 않습니다.


Apache PDFBox를 사용하면 다음과 같이됩니다.

PDDocument document = PDDocument.load(new File("test.pdf"));
if (!document.isEncrypted()) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println("Text:" + text);
}
document.close();

PDFBox 에는 텍스트 추출 도구가 포함되어 있습니다 .

iText 는 텍스트 조작에 대해 더 낮은 수준의 지원을 제공하지만 텍스트 추출을 얻으려면 상당한 양의 코드를 작성해야합니다.

iText in Action 에는 사용 된 라이브러리 (섹션 18.2 : 텍스트 추출 및 편집)에 관계없이 PDF에서 텍스트 추출의 한계에 대한 좋은 개요와 라이브러리가 텍스트 추출을 지원하지 않는 이유에 대한 설득력있는 설명이 포함되어 있습니다. 간단히 말해 간단한 경우를 처리하는 코드를 작성하는 것은 비교적 쉽지만 일반적으로 PDF에서 텍스트를 추출하는 것은 기본적으로 불가능합니다.

참고 URL : https://stackoverflow.com/questions/4784825/how-to-read-pdf-files-using-java

반응형