Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.
Основные улучшения в Tesseract 4.1:
- Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
- Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
- Добавлена поддержка псевдографики в выводе hOCR (HTML);
- Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
- Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
- По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
- В движке LSTM добавлена поддержка белых и чёрных списков;
- Улучшены сборочные сценарии на базе Cmake.
Источник: https://www.opennet.ru/opennews/art.shtml?num=51081
(opennet.ru, основная лента)