Какие библиотеки стоит начать изучать в первую очередь? И почему?Вот некоторые популярные открытые библиотеки для работы с PDF-файлами в Java:
OpenPDF: это свободная альтернатива iText, которая предоставляет API для создания и изменения PDF-документов.
Apache PDFBox: Эта библиотека позволяет создавать новые PDF-документы, обрабатывать существующие и изменять их содержимое. Она также поддерживает извлечение текста, изображений и метаданных из PDF-файлов. Apache PDFBox является более низкоуровневой библиотекой, поэтому она предоставляет более гибкие возможности для работы с PDF, но требует больше кода и более глубокого понимания формата PDF.
PDF Clown: Эта библиотека предоставляет средства для чтения и записи PDF-файлов. Она поддерживает множество функций PDF, включая формы, ярлыки и встраиваемые шрифты. PDF Clown
iText: одна из наиболее мощных библиотек для работы с PDF в Java. Она позволяет создавать, изменять и извлекать информацию из PDF-документов. Однако, стоит отметить, что iText является коммерческой библиотекой, и для ее использования требуется приобрести лицензию.
Как (при помощи какой библиотеки) извлекает текст из .pdf поисковый движок lucene?
Учитывая, что lucene и pdfbox относятся оба к Apache Foundation, то наверное они друг о друге должны знать
Предлагают пробовать что-то такое:
Код: Выделить всё
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
public class PdfReader {
public String readPdf(String filePath) throws IOException {
PDDocument document = PDDocument.load(new File(filePath));
PDFTextStripper pdfStripper = new PDFTextStripper();
String text = pdfStripper.getText(document);
document.close();
return text;
}
}