Куда копать?
Документ с каким-то архи-минимальным форматированием дико ужасно распознается -- форматирование плывет.
Текст накладывается -- блок на блок.
И также текст при экспорте в .odf получается в виде какого-то блога, который не редактируется.
Что делать с этой бедой?
Нужно распознавание сканов, в общем ))
@ Fedora 33.
Tesseract 4 @ gImageReader-gtk (: ))
Модератор: /dev/random
Tesseract 4 @ gImageReader-gtk
Последний раз редактировалось SerW 21.02.2021 10:51, всего редактировалось 1 раз.
Сергей Ш. » DragonSerW.RU
- Hephaestus
- Сообщения: 3729
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
- Контактная информация:
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
Да черт с ним, с форматированием.
Задача распознавания - избавить от набора больших объемов текста вручную.
Форматирование - это вопрос десятый.
Это как? Текст накладываться не может.
Накладываться могут фреймы.
Наличие фреймов - проблема выходного формата (в частности, при попытках сохранить форматирование),
а не распознавания как такового.
Сохраняйте plain text.
Ничего не делать. Сохранять без форматирования.
Общие проблемы распознавания, я полагаю, Вам известны.
Форматирование по сравнению с ними - это такой пустяк,
о котором вообще смешно говорить.
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
Hephaestus
Не соглашусь с вами радикально.
У меня куплен ФайнРидер на Макинтош, и он вот прямо гораздо лучше работает!
Не соглашусь с вами радикально.
У меня куплен ФайнРидер на Макинтош, и он вот прямо гораздо лучше работает!
Сергей Ш. » DragonSerW.RU
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
1. распознование, переписать модуль распознования. Крайне сложная задача, скорее всего с каждым годом будет становится всё бесмысленнее. Но всё таки как вариант.
2. да, форматирование бывает ползёт, оно и в файнридере бывало плохим. Использовать другие форматы, аля rtf не получится?
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
Потыкал в прогу вместо того, чтобы позавтракать.
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))
То есть, вот чтобы сделать ровно так, как сохраняет вывод NAPS, требуется в настройках сохранения в PDF указать 'Output mode': PDF with invisible text overlay.
Несколько вопросов: при режиме Plain text (то, что можно выбрать вместо 'hOCR, PDF') очень четкая функция имеется: удаление переносов в рамках выделенного текста. И вообще прямо качественно распознает.
А в режиме 'hOCR, PDF' этой чудо-функции нет.
То есть я бы хотел и вносить правки в текст, и убирать переносы. Это невозможно при hOCR? То есть, gIR должен сохранить text overlay прямо поверх картинки, на тех же местах?
И еще: очень много текстовых блоков получается при режиме hOCR: https://i.ibb.co/9nc9CdY/Screenshot-from-2021-02-19-12-53-05.png . Соответственно, всплывают ошибки, которых нет при 'Plain text'!
вердикт: софт -- просто чудо.
Я мечтал о NAPS2 @ Fedora, но тут же все прямо гораздо качественнне! ))
То есть, вот чтобы сделать ровно так, как сохраняет вывод NAPS, требуется в настройках сохранения в PDF указать 'Output mode': PDF with invisible text overlay.
Несколько вопросов: при режиме Plain text (то, что можно выбрать вместо 'hOCR, PDF') очень четкая функция имеется: удаление переносов в рамках выделенного текста. И вообще прямо качественно распознает.
А в режиме 'hOCR, PDF' этой чудо-функции нет.
То есть я бы хотел и вносить правки в текст, и убирать переносы. Это невозможно при hOCR? То есть, gIR должен сохранить text overlay прямо поверх картинки, на тех же местах?
И еще: очень много текстовых блоков получается при режиме hOCR: https://i.ibb.co/9nc9CdY/Screenshot-from-2021-02-19-12-53-05.png . Соответственно, всплывают ошибки, которых нет при 'Plain text'!
Сергей Ш. » DragonSerW.RU
- Hephaestus
- Сообщения: 3729
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
- Контактная информация:
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
SerW
Вы уж определитесь.
Или Вы это о разных программах говорили?
С plain text всё просто: там только текст, причем без всяких заморочек (на то он и plain text).
Следовательно, там можно работать с переносами и прочими подобными вещами.
Хотя я бы этому не доверял на сто процентов: слово, которое пишется через дефис, вполне может быть
обработано как слово с переносом, ибо различий никаких нет, кроме грамматических.
Любой другой формат (не plain text) - это уже разметка, верстка, бинарные данные и всё в таком духе.
Поэтому там задача по обработке переносов усложняется вплоть до того, что становится совершенно нерешаемой.
Правильная расстановка блоков возможна только вручную (перед распознаванием).
Если программа успешно разбирается с блоками (не при работе с конкретным форматом, а вообще),
то честь ей и хвала. Но чаще всего нет.
А чем Вас plain text не устраивает?
Я могу лишь повторить ещё раз: задача распознавания - избавить человека от ручного набора больших объемов текста.
Всё. Точка. Больше ничего быть не должно, всё остальное - излишества.
Именно поэтому распознавание двух-трех абзацев с последующей вычиткой совершенно неоправданно:
с распознаванием возиться дольше, чем набрать руками.
А уж про всякое там форматирование речи не идет вообще:
такой документ требуется переделывать в ста процентах случаев.
Причем, не делать заново, а именно переделывать:
часть элементов действительно сделана правильно, часть только выглядит правильно,
а часть получилась вообще неправильно.
Поэтому проверять приходится все.
И вот надо выковыривать из недр документа
разного рода неверные стили, шрифты, отступы и т.п.
Проще взять сырой текст, в котором нет никакого форматирования
и обработать его один раз, не спотыкаясь на отдельных элементах.
То у Вас отвратное распознавание, то наоборот, всё чудесно и качественно.
Вы уж определитесь.
Или Вы это о разных программах говорили?
Ее нет ровно потому что это не plain text.
С plain text всё просто: там только текст, причем без всяких заморочек (на то он и plain text).
Следовательно, там можно работать с переносами и прочими подобными вещами.
Хотя я бы этому не доверял на сто процентов: слово, которое пишется через дефис, вполне может быть
обработано как слово с переносом, ибо различий никаких нет, кроме грамматических.
Любой другой формат (не plain text) - это уже разметка, верстка, бинарные данные и всё в таком духе.
Поэтому там задача по обработке переносов усложняется вплоть до того, что становится совершенно нерешаемой.
Вообще, это нормально.
Правильная расстановка блоков возможна только вручную (перед распознаванием).
Если программа успешно разбирается с блоками (не при работе с конкретным форматом, а вообще),
то честь ей и хвала. Но чаще всего нет.
А чем Вас plain text не устраивает?
Я могу лишь повторить ещё раз: задача распознавания - избавить человека от ручного набора больших объемов текста.
Всё. Точка. Больше ничего быть не должно, всё остальное - излишества.
Именно поэтому распознавание двух-трех абзацев с последующей вычиткой совершенно неоправданно:
с распознаванием возиться дольше, чем набрать руками.
А уж про всякое там форматирование речи не идет вообще:
такой документ требуется переделывать в ста процентах случаев.
Причем, не делать заново, а именно переделывать:
часть элементов действительно сделана правильно, часть только выглядит правильно,
а часть получилась вообще неправильно.
Поэтому проверять приходится все.
И вот надо выковыривать из недр документа
разного рода неверные стили, шрифты, отступы и т.п.
Проще взять сырой текст, в котором нет никакого форматирования
и обработать его один раз, не спотыкаясь на отдельных элементах.
Re: Tesseract 4 @ gImageReader-gtk отвратное распознавание! ((
Лады, вы меня успокоили. Сбростил линк на тред заказчику ))
Сергей Ш. » DragonSerW.RU
Re: Tesseract 4 @ gImageReader-gtk
А вот нагуглил https://flathub.org/apps/details/org.gnome.OCRFeeder -- оно как?
Сергей Ш. » DragonSerW.RU