[ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение **rssbot** » 12.07.2019 10:18

Подготовлен релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения в Tesseract 4.1:

Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
Добавлена поддержка псевдографики в выводе hOCR (HTML);
Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
В движке LSTM добавлена поддержка белых и чёрных списков;
Улучшены сборочные сценарии на базе Cmake.

Источник: https://www.opennet.ru/opennews/art.shtml?num=51081
(opennet.ru, основная лента)

yoricI · Сообщение **yoricI** » 12.07.2019 12:59

Кто-нибудь пробовал? Как вообще с ним работать, сфотографированный текст распознает? Или только сканировать? И непонятно, рукописный тоже, или только печатный?

astronom1987 · Сообщение **astronom1987** » 12.07.2019 13:17

Я перепробовал, пожалуй, все свободные программы для Linux для распознавания текста. И кончилось оно вот чем https://www.youtube.com/watch?v=YkH4Dxo_ZZY

Сообщение **Bizdelnick** » 12.07.2019 13:26

yoricI писал: ↑
12.07.2019 12:59
Кто-нибудь пробовал?

Пробовал очень давно. Тогда с русским языком у него обстояло плачевно, намного хуже, чем у cuneiform. Возможно, что-то с тех пор изменилось.

ormorph · Сообщение **ormorph** » 12.07.2019 17:56

Bizdelnick писал: ↑
12.07.2019 13:26
Пробовал очень давно. Тогда с русским языком у него обстояло плачевно, намного хуже, чем у cuneiform. Возможно, что-то с тех пор изменилось.

Сейчас по лучше обрабатывает чем cuneiform русский текст(в смысле фотки худшего качества), главное указать язык:

Shell

$ tesseract -l rus img.jpg out

Единственное если текст будет состоять из русского и английского, то тут уже будут проблемы, так как нет режима ruseng.
А так все зависит от качества фоток.

Добавлено (18:00):

yoricI писал: ↑
12.07.2019 12:59
И непонятно, рукописный тоже, или только печатный?

Не каждый рукописный текст человек то сможет разобрать...

yoricI · Сообщение **yoricI** » 10.10.2019 09:37

Я б сказал, что работает очень и очень неплохо, из примерно 20 журнальных листов с перегибами, сфотографированных на руках смартфоном, пришлось набирать вручную и исправлять процентов 10-20. Жизнь становится лучше и веселее :-)

azsx · Сообщение **azsx** » 10.10.2019 12:29

я рукописный русский не пробовал, но печатный он распознаёт плохо.
Но зато в консоли.

Hephaestus · Сообщение **Hephaestus** » 10.10.2019 13:30

Я некоторое время назад пробовал. Детали я уже не помню, но в целом получилось весьма неплохо.

Было лень перепечатывать примеры кода из книжки, решил прогнать через распознавалку.
Скан был не слишком подходящий. Блоки кода были в книге имеют оформление: широкая серая полоса слева.
Это сбило с толку алгоритм распознавания и он выдал кучу всякого мусора даже там, где был нормальный текст, а не только там, где были эти полосы.
Убрал эти полосы, распознал ещё раз - результат великолепный: почти без ошибок.
Это при том, что текст двуязычный: код латиницей плюс русские комментарии.

Те ошибки, которые всё-таки нашлись, были связаны либо с плохо пропечатанным или стертым символом (например, слегка затертая буква "о" выглядит как "с"), либо с заменой латинского символа на сходный русский и наоборот (А, О, Т, Р и т.п.).

Так что в целом даю высокую оценку, получилось лучше, чем я ожидал.

yoricI · Сообщение **yoricI** » 11.10.2020 14:45

Не нахожу в мане ключ для увеличения символов в строке, а то рано переносит на другую. Есть такое дело?

Кажется, я понял почему так. Потому, что колонка журнала узкая, 3 колонки на страницу. Придётся редактировать вручную...

unixforum.org