Tesseract 4 @ gImageReader-gtk (: ))

SerW · Сообщение **SerW** » 18.02.2021 12:34

Куда копать?
Документ с каким-то архи-минимальным форматированием дико ужасно распознается -- форматирование плывет.
Текст накладывается -- блок на блок.
И также текст при экспорте в .odf получается в виде какого-то блога, который не редактируется.
Что делать с этой бедой?
Нужно распознавание сканов, в общем ))
@ Fedora 33.

Hephaestus · Сообщение **Hephaestus** » 18.02.2021 13:34

SerW писал: ↑
18.02.2021 12:34
Документ с каким-то архи-минимальным форматированием дико ужасно распознается -- форматирование плывет.

Да черт с ним, с форматированием.
Задача распознавания - избавить от набора больших объемов текста вручную.
Форматирование - это вопрос десятый.

SerW писал: ↑
18.02.2021 12:34
Текст накладывается -- блок на блок.

Это как? Текст накладываться не может.
Накладываться могут фреймы.
Наличие фреймов - проблема выходного формата (в частности, при попытках сохранить форматирование),
а не распознавания как такового.

SerW писал: ↑
18.02.2021 12:34
И также текст при экспорте в .odf получается в виде какого-то блога, который не редактируется.

Сохраняйте plain text.

SerW писал: ↑
18.02.2021 12:34
Что делать с этой бедой?

Ничего не делать. Сохранять без форматирования.
Общие проблемы распознавания, я полагаю, Вам известны.
Форматирование по сравнению с ними - это такой пустяк,
о котором вообще смешно говорить.

SerW · Сообщение **SerW** » 18.02.2021 13:43

Hephaestus
Не соглашусь с вами радикально.
У меня куплен ФайнРидер на Макинтош, и он вот прямо гораздо лучше работает!

azsx · Сообщение **azsx** » 18.02.2021 18:07

SerW писал: ↑
18.02.2021 12:34
Куда копать?

1. распознование, переписать модуль распознования. Крайне сложная задача, скорее всего с каждым годом будет становится всё бесмысленнее. Но всё таки как вариант.
2. да, форматирование бывает ползёт, оно и в файнридере бывало плохим. Использовать другие форматы, аля rtf не получится?

SerW · Сообщение **SerW** » 19.02.2021 13:03

Потыкал в прогу вместо того, чтобы позавтракать.
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))
То есть, вот чтобы сделать ровно так, как сохраняет вывод NAPS, требуется в настройках сохранения в PDF указать 'Output mode': PDF with invisible text overlay.

Несколько вопросов: при режиме Plain text (то, что можно выбрать вместо 'hOCR, PDF') очень четкая функция имеется: удаление переносов в рамках выделенного текста. И вообще прямо качественно распознает.
А в режиме 'hOCR, PDF' этой чудо-функции нет.
То есть я бы хотел и вносить правки в текст, и убирать переносы. Это невозможно при hOCR? То есть, gIR должен сохранить text overlay прямо поверх картинки, на тех же местах?

И еще: очень много текстовых блоков получается при режиме hOCR: https://i.ibb.co/9nc9CdY/Screenshot-from-2021-02-19-12-53-05.png . Соответственно, всплывают ошибки, которых нет при 'Plain text'!

Hephaestus · Сообщение **Hephaestus** » 19.02.2021 14:34

SerW

SerW писал: ↑
19.02.2021 13:03
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))

То у Вас отвратное распознавание, то наоборот, всё чудесно и качественно.
Вы уж определитесь.
Или Вы это о разных программах говорили?

SerW писал: ↑
19.02.2021 13:03
А в режиме 'hOCR, PDF' этой чудо-функции нет.

Ее нет ровно потому что это не plain text.
С plain text всё просто: там только текст, причем без всяких заморочек (на то он и plain text).
Следовательно, там можно работать с переносами и прочими подобными вещами.
Хотя я бы этому не доверял на сто процентов: слово, которое пишется через дефис, вполне может быть
обработано как слово с переносом, ибо различий никаких нет, кроме грамматических.

Любой другой формат (не plain text) - это уже разметка, верстка, бинарные данные и всё в таком духе.
Поэтому там задача по обработке переносов усложняется вплоть до того, что становится совершенно нерешаемой.

SerW писал: ↑
19.02.2021 13:03
И еще: очень много текстовых блоков получается при режиме hOCR:

Вообще, это нормально.
Правильная расстановка блоков возможна только вручную (перед распознаванием).
Если программа успешно разбирается с блоками (не при работе с конкретным форматом, а вообще),
то честь ей и хвала. Но чаще всего нет.

А чем Вас plain text не устраивает?

Я могу лишь повторить ещё раз: задача распознавания - избавить человека от ручного набора больших объемов текста.
Всё. Точка. Больше ничего быть не должно, всё остальное - излишества.
Именно поэтому распознавание двух-трех абзацев с последующей вычиткой совершенно неоправданно:
с распознаванием возиться дольше, чем набрать руками.
А уж про всякое там форматирование речи не идет вообще:
такой документ требуется переделывать в ста процентах случаев.
Причем, не делать заново, а именно переделывать:
часть элементов действительно сделана правильно, часть только выглядит правильно,
а часть получилась вообще неправильно.
Поэтому проверять приходится все.
И вот надо выковыривать из недр документа
разного рода неверные стили, шрифты, отступы и т.п.
Проще взять сырой текст, в котором нет никакого форматирования
и обработать его один раз, не спотыкаясь на отдельных элементах.

SerW · Сообщение **SerW** » 19.02.2021 14:39

Лады, вы меня успокоили. Сбростил линк на тред заказчику ))

SerW · Сообщение **SerW** » 22.02.2021 08:53

А вот нагуглил https://flathub.org/apps/details/org.gnome.OCRFeeder -- оно как?

unixforum.org

Tesseract 4 @ gImageReader-gtk (: ))

Tesseract 4 @ gImageReader-gtk

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((

Re: Tesseract 4 @ gImageReader-gtk