Tesseract 4 @ gImageReader-gtk (: ))

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

Ответить
Аватара пользователя
SerW
Сообщения: 402
ОС: macOS& Fedora Workstation Latest
Контактная информация:

Tesseract 4 @ gImageReader-gtk

Сообщение SerW »

Куда копать?
Документ с каким-то архи-минимальным форматированием дико ужасно распознается -- форматирование плывет.
Текст накладывается -- блок на блок.
И также текст при экспорте в .odf получается в виде какого-то блога, который не редактируется.
Что делать с этой бедой?
Нужно распознавание сканов, в общем ))
@ Fedora 33.
Последний раз редактировалось SerW 21.02.2021 10:51, всего редактировалось 1 раз.
Сергей Ш. » DragonSerW.RU
Спасибо сказали:
Аватара пользователя
Hephaestus
Сообщения: 3729
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение Hephaestus »

SerW писал:
18.02.2021 12:34
Документ с каким-то архи-минимальным форматированием дико ужасно распознается -- форматирование плывет.
Да черт с ним, с форматированием.
Задача распознавания - избавить от набора больших объемов текста вручную.
Форматирование - это вопрос десятый.
SerW писал:
18.02.2021 12:34
Текст накладывается -- блок на блок.
Это как? Текст накладываться не может.
Накладываться могут фреймы.
Наличие фреймов - проблема выходного формата (в частности, при попытках сохранить форматирование),
а не распознавания как такового.
SerW писал:
18.02.2021 12:34
И также текст при экспорте в .odf получается в виде какого-то блога, который не редактируется.
Сохраняйте plain text.
SerW писал:
18.02.2021 12:34
Что делать с этой бедой?
Ничего не делать. Сохранять без форматирования.
Общие проблемы распознавания, я полагаю, Вам известны.
Форматирование по сравнению с ними - это такой пустяк,
о котором вообще смешно говорить.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
Аватара пользователя
SerW
Сообщения: 402
ОС: macOS& Fedora Workstation Latest
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение SerW »

Hephaestus
Не соглашусь с вами радикально.
У меня куплен ФайнРидер на Макинтош, и он вот прямо гораздо лучше работает!
Сергей Ш. » DragonSerW.RU
Спасибо сказали:
azsx
Сообщения: 3684
ОС: calculate linux, debian, ubuntu

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение azsx »

SerW писал:
18.02.2021 12:34
Куда копать?
1. распознование, переписать модуль распознования. Крайне сложная задача, скорее всего с каждым годом будет становится всё бесмысленнее. Но всё таки как вариант.
2. да, форматирование бывает ползёт, оно и в файнридере бывало плохим. Использовать другие форматы, аля rtf не получится?
Спасибо сказали:
Аватара пользователя
SerW
Сообщения: 402
ОС: macOS& Fedora Workstation Latest
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение SerW »

Потыкал в прогу вместо того, чтобы позавтракать.
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))
То есть, вот чтобы сделать ровно так, как сохраняет вывод NAPS, требуется в настройках сохранения в PDF указать 'Output mode': PDF with invisible text overlay.

Несколько вопросов: при режиме Plain text (то, что можно выбрать вместо 'hOCR, PDF') очень четкая функция имеется: удаление переносов в рамках выделенного текста. И вообще прямо качественно распознает.
А в режиме 'hOCR, PDF' этой чудо-функции нет.
То есть я бы хотел и вносить правки в текст, и убирать переносы. Это невозможно при hOCR? То есть, gIR должен сохранить text overlay прямо поверх картинки, на тех же местах?

И еще: очень много текстовых блоков получается при режиме hOCR: https://i.ibb.co/9nc9CdY/Screenshot-from-2021-02-19-12-53-05.png . Соответственно, всплывают ошибки, которых нет при 'Plain text'!
Сергей Ш. » DragonSerW.RU
Спасибо сказали:
Аватара пользователя
Hephaestus
Сообщения: 3729
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение Hephaestus »

SerW
SerW писал:
19.02.2021 13:03
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))
То у Вас отвратное распознавание, то наоборот, всё чудесно и качественно.
Вы уж определитесь.
Или Вы это о разных программах говорили?
SerW писал:
19.02.2021 13:03
А в режиме 'hOCR, PDF' этой чудо-функции нет.
Ее нет ровно потому что это не plain text.
С plain text всё просто: там только текст, причем без всяких заморочек (на то он и plain text).
Следовательно, там можно работать с переносами и прочими подобными вещами.
Хотя я бы этому не доверял на сто процентов: слово, которое пишется через дефис, вполне может быть
обработано как слово с переносом, ибо различий никаких нет, кроме грамматических.

Любой другой формат (не plain text) - это уже разметка, верстка, бинарные данные и всё в таком духе.
Поэтому там задача по обработке переносов усложняется вплоть до того, что становится совершенно нерешаемой.
SerW писал:
19.02.2021 13:03
И еще: очень много текстовых блоков получается при режиме hOCR:
Вообще, это нормально.
Правильная расстановка блоков возможна только вручную (перед распознаванием).
Если программа успешно разбирается с блоками (не при работе с конкретным форматом, а вообще),
то честь ей и хвала. Но чаще всего нет.

А чем Вас plain text не устраивает?

Я могу лишь повторить ещё раз: задача распознавания - избавить человека от ручного набора больших объемов текста.
Всё. Точка. Больше ничего быть не должно, всё остальное - излишества.
Именно поэтому распознавание двух-трех абзацев с последующей вычиткой совершенно неоправданно:
с распознаванием возиться дольше, чем набрать руками.
А уж про всякое там форматирование речи не идет вообще:
такой документ требуется переделывать в ста процентах случаев.
Причем, не делать заново, а именно переделывать:
часть элементов действительно сделана правильно, часть только выглядит правильно,
а часть получилась вообще неправильно.
Поэтому проверять приходится все.
И вот надо выковыривать из недр документа
разного рода неверные стили, шрифты, отступы и т.п.
Проще взять сырой текст, в котором нет никакого форматирования
и обработать его один раз, не спотыкаясь на отдельных элементах.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
Аватара пользователя
SerW
Сообщения: 402
ОС: macOS& Fedora Workstation Latest
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Сообщение SerW »

Лады, вы меня успокоили. Сбростил линк на тред заказчику ))
Сергей Ш. » DragonSerW.RU
Спасибо сказали:
Аватара пользователя
SerW
Сообщения: 402
ОС: macOS& Fedora Workstation Latest
Контактная информация:

Re: Tesseract 4 @ gImageReader-gtk

Сообщение SerW »

А вот нагуглил https://flathub.org/apps/details/org.gnome.OCRFeeder -- оно как?
Сергей Ш. » DragonSerW.RU
Спасибо сказали:
Ответить