Вот некоторые популярные открытые библиотеки для работы с PDF-файлами в Java:
OpenPDF: это свободная альтернатива iText, которая предоставляет API для создания и изменения PDF-документов.
Apache PDFBox: Эта библиотека позволяет создавать новые PDF-документы, обрабатывать существующие и изменять их содержимое. Она также поддерживает извлечение текста, изображений и метаданных из PDF-файлов. Apache PDFBox является более низкоуровневой библиотекой, поэтому она предоставляет более гибкие возможности для работы с PDF, но требует больше кода и более глубокого понимания формата PDF.
PDF Clown: Эта библиотека предоставляет средства для чтения и записи PDF-файлов. Она поддерживает множество функций PDF, включая формы, ярлыки и встраиваемые шрифты. PDF Clown
iText: одна из наиболее мощных библиотек для работы с PDF в Java. Она позволяет создавать, изменять и извлекать информацию из PDF-документов. Однако, стоит отметить, что iText является коммерческой библиотекой, и для ее использования требуется приобрести лицензию.
Какие библиотеки стоит начать изучать в первую очередь? И почему?
Как (при помощи какой библиотеки) извлекает текст из .pdf поисковый движок lucene?
Учитывая, что lucene и pdfbox относятся оба к Apache Foundation, то наверное они друг о друге должны знать
Какие библиотеки стоит начать изучать в первую очередь? И почему?
Идёте на их сайты, находите репозитории с исходниками. Видите, что PDFClown не разрабатывается с 2015 года, сразу отбрасываете этот вариант. OpenPDF и PDFBox обе довольно активны. Смотрите на объём кода и количество зависимостей, видите, что PDFBox заметно жирнее. Дальше смотрите на API: если OpenPDF умеет делать всё, что Вам надо, берёте её, если нет — тогда PDFBox.
Ну не знаю, как конкретно в Gentoo, а вообще в большинстве дистрибутивов с пакетированием java-софта обстоит крайне плохо, так что я б на это особо не ориентировался. Тем более что в java-мире, как я разумею, принято использовать всякие мавены-шмавены и грейдлы-…, которым глубоко плевать, что есть в операционке. То, что pdfbox есть в репе, а openpdf — нет, говорит скорее о том, что pdfbox старее, а не о каких-то качественных характеристиках.