[ON] Релиз системы распознавания текста Tesseract 4.1

Обсуждение новостей, соответствующих тематике форума

Модератор: Модераторы разделов

Аватара пользователя
rssbot
Бот
Сообщения: 6011
ОС: gnu/linux

[ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение rssbot » 12.07.2019 10:18

Подготовлен релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения в Tesseract 4.1:
  • Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
  • Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
  • Добавлена поддержка псевдографики в выводе hOCR (HTML);
  • Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
  • Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
  • По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
  • В движке LSTM добавлена поддержка белых и чёрных списков;
  • Улучшены сборочные сценарии на базе Cmake.


Источник: https://www.opennet.ru/opennews/art.shtml?num=51081
(opennet.ru, основная лента)
Спасибо сказали:

Аватара пользователя
yoricI
Сообщения: 867
ОС: gentoo fluxbox

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение yoricI » 12.07.2019 12:59

Кто-нибудь пробовал? Как вообще с ним работать, сфотографированный текст распознает? Или только сканировать? И непонятно, рукописный тоже, или только печатный?
Спасибо сказали:

Аватара пользователя
astronom1987
Сообщения: 901
ОС: MX Linux

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение astronom1987 » 12.07.2019 13:17

Я перепробовал, пожалуй, все свободные программы для Linux для распознавания текста. И кончилось оно вот чем https://www.youtube.com/watch?v=YkH4Dxo_ZZY
[url="http://linuxeasy.pp.ua/"]Мой блог о Linux :) [url="http://linuxeasy.pp.ua/2019/05/06/uslugi-udalennoj-ustanovki-linux-na-vash-kompyuter-so-storony-avtora-bloga/"]Удаленная установка Linux по сети!
Спасибо сказали:

Аватара пользователя
Bizdelnick
Модератор
Сообщения: 16009
Статус: grammatikführer
ОС: Debian GNU/Linux

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение Bizdelnick » 12.07.2019 13:26

yoricI писал:
12.07.2019 12:59
Кто-нибудь пробовал?
Пробовал очень давно. Тогда с русским языком у него обстояло плачевно, намного хуже, чем у cuneiform. Возможно, что-то с тех пор изменилось.
Пишите правильно:
в консоли
вкупе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:

Аватара пользователя
ormorph
Сообщения: 952
ОС: Gentoo

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение ormorph » 12.07.2019 17:56

Bizdelnick писал:
12.07.2019 13:26
Пробовал очень давно. Тогда с русским языком у него обстояло плачевно, намного хуже, чем у cuneiform. Возможно, что-то с тех пор изменилось.
Сейчас по лучше обрабатывает чем cuneiform русский текст(в смысле фотки худшего качества), главное указать язык:

Shell

$ tesseract -l rus img.jpg out
Единственное если текст будет состоять из русского и английского, то тут уже будут проблемы, так как нет режима ruseng.
А так все зависит от качества фоток.
Добавлено (18:00):
yoricI писал:
12.07.2019 12:59
И непонятно, рукописный тоже, или только печатный?
Не каждый рукописный текст человек то сможет разобрать...
Спасибо сказали:

Аватара пользователя
yoricI
Сообщения: 867
ОС: gentoo fluxbox

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение yoricI » 10.10.2019 09:37

Я б сказал, что работает очень и очень неплохо, из примерно 20 журнальных листов с перегибами, сфотографированных на руках смартфоном, пришлось набирать вручную и исправлять процентов 10-20. Жизнь становится лучше и веселее :-)
Спасибо сказали:

azsx
Сообщения: 2915
ОС: calculate linux, debian, ubuntu

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение azsx » 10.10.2019 12:29

я рукописный русский не пробовал, но печатный он распознаёт плохо.
Но зато в консоли.
Спасибо сказали:

Аватара пользователя
Hephaestus
Сообщения: 2613
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: [ON] Релиз системы распознавания текста Tesseract 4.1

Сообщение Hephaestus » 10.10.2019 13:30

Я некоторое время назад пробовал. Детали я уже не помню, но в целом получилось весьма неплохо.

Было лень перепечатывать примеры кода из книжки, решил прогнать через распознавалку.
Скан был не слишком подходящий. Блоки кода были в книге имеют оформление: широкая серая полоса слева.
Это сбило с толку алгоритм распознавания и он выдал кучу всякого мусора даже там, где был нормальный текст, а не только там, где были эти полосы.
Убрал эти полосы, распознал ещё раз - результат великолепный: почти без ошибок.
Это при том, что текст двуязычный: код латиницей плюс русские комментарии.

Те ошибки, которые всё-таки нашлись, были связаны либо с плохо пропечатанным или стертым символом (например, слегка затертая буква "о" выглядит как "с"), либо с заменой латинского символа на сходный русский и наоборот (А, О, Т, Р и т.п.).

Так что в целом даю высокую оценку, получилось лучше, чем я ожидал.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали: