Российская система распознавания текстов CuneiForm станет открытой

Обсуждение новостей, соответствующих тематике форума

Модератор: Модераторы разделов

IvanAl
Сообщения: 64

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение IvanAl »

Скачать исходный код программы OCR Cuneiform
http://www.cuneiform.ru/downloads/
Спасибо сказали:
astronom
Сообщения: 151
ОС: Debian

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение astronom »

Пробовал использовать эту прогу (под Вистой). Порадовал интерфейс, но очень огорчило качество распознавания :mellow: Наверное, для системы 5-летней давности он может быть и сошел бы за удовлетворительный, но сейчас тот же fineReader по качеству распознавания текста гораздо сильнее. Ну и главный минус: отсутствие импорта/экспорта в pdf (можно конечно сделать сотню jpeg'ов или tiff'ов, но легче сделать 100-страничный pdf :wacko: ).
В общем, пока CuneiForm не научится обрабатывать pdf, я буду продолжать думать о покупке FineReader'а :rolleyes:

Остается надеяться, что открытие кода программы будет благоприятстсвовать развитию продукта.
p.s. Кстати, вроде бы у них на сайте было написано, что открытие проекта направлено на образовательные и научные цели. Поэтому fineReader'у можно особо не волноваться. :tongue:

p.s.
Для корректной сборки версии программы необходимо наличие следующего программного обеспечения: Microsoft Visual Studio C++ (не ниже версии 6.0), платформа Microsoft Platform SDK. Для корректной работы программы рекомендуется установить Service Pack 5, STL Patch, Service Pack 6.

:mellow:
Параллельные извилины не пересекаются ...
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

astronom писал(а):
03.04.2008 10:26
p.s. Кстати, вроде бы у них на сайте было написано, что открытие проекта направлено на образовательные и научные цели. Поэтому fineReader'у можно особо не волноваться. :tongue:

У ABBYY свои кафедры в МФТИ, а с открытием исходников CF аналогичные разработки можно вести в любой точке мира (правда в штате необходим человек со знаем русского, поскольку значительная часть комментариев на нём :) ). Так что их это касается в первую очередь. А добавить идеи появившиеся за последние 10(!) лет не столь сложно, чем написать OCR-систему такого уровня.
Спасибо сказали:
Blok
Сообщения: 36

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Blok »

Просто интересно.

Если ли уже чтонибудь для Линуксов.
И если известно. кто занимается этой программой?
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

Пока нет, но работа потихоньку идёт
https://code.launchpad.net/~jpakkane/+junk/cuneiform-linux
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

В общем 28 июня 2008 года вышла версия 0.1 для Linux :)
Jussi Pakkanen и товарищи смогли портировать Cuneiform - https://launchpad.net/cuneiform-linux
Инструкция по сборке на русском языке доступна на форуме Cuneiform.
Но до полной работоспособности пока далеко, так что если вы сильны в C и C++, то подключайтесь к процессу. Документация по ядру системы на русском доступна по адресу http://www.cuneiform.ru/downloads/
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Jinn »

Вообще-то они (фирма) тоже хороши! Обычно создаётся некий фонд, вкладывается капитал, как-то раскручивается всё... А тут? Выложили - и нате вам! Будьте здоровы и делайте чё хотите. Конечно процесс медленно пойдёт!
Вон fr, даже бесплатными какими-то версиями сканеры комплектуют.
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
ester
Сообщения: 45

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение ester »

Jinn писал(а):
15.07.2008 06:17
Вообще-то они (фирма) тоже хороши! Обычно создаётся некий фонд, вкладывается капитал, как-то раскручивается всё... А тут? Выложили - и нате вам! Будьте здоровы и делайте чё хотите. Конечно процесс медленно пойдёт!
Вон fr, даже бесплатными какими-то версиями сканеры комплектуют.

Под windows оно вполне работоспособно . Какого чорта фирма его будет бесплатно переписывать под ?
Спасибо сказали:
Аватара пользователя
fed71
Сообщения: 2480
ОС: Ubuntu

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение fed71 »

Jinn писал(а):
15.07.2008 06:17
Вообще-то они (фирма) тоже хороши! Обычно создаётся некий фонд, вкладывается капитал, как-то раскручивается всё... А тут? Выложили - и нате вам! Будьте здоровы и делайте чё хотите. Конечно процесс медленно пойдёт!
Вон fr, даже бесплатными какими-то версиями сканеры комплектуют.

Ага. Линус Торвальдс в свое время тоже просто выложил исходный код :rolleyes:
Система востребована, заинтересованность у сообщества есть, так что имхо процесс пойдет. Кто может помочь развиться проекту - делают это. А критика хороша когда эта критика конструктивна.
Я не знаю кто я. Не помню ни серии своей, ни инвентарного номера...

Мой блог http://fed71.livejournal.com
Спасибо сказали:
Аватара пользователя
astronom1987
Сообщения: 1145
ОС: MX Linux

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение astronom1987 »

Господа, эта новость была на ЛОРе, причем давно зачем нужно было постить ее здесь :mellow:?
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Jinn »

ester писал(а):
15.07.2008 08:41
Jinn писал(а):
15.07.2008 06:17
Вообще-то они (фирма) тоже хороши! Обычно создаётся некий фонд, вкладывается капитал, как-то раскручивается всё... А тут? Выложили - и нате вам! Будьте здоровы и делайте чё хотите. Конечно процесс медленно пойдёт!
Вон fr, даже бесплатными какими-то версиями сканеры комплектуют.

Под windows оно вполне работоспособно . Какого чорта фирма его будет бесплатно переписывать под ?

Слово "чёрт" пишется через "Ё", молодой человек, и программа не "оно", а "она", поскольку слово женского рода.
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
Аватара пользователя
Juliette
Сообщения: 5058
Статус: ROSA Lab
ОС: Ubuntu LTS, Mandriva 2011

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Juliette »

Господа, попрошу не отрываться от темы. Все знают, шо новости у нас никудышные, ЛОР всегда всех обскакивает по новостям, так что что уж теперь...
Спасибо сказали:
Аватара пользователя
chitatel
Сообщения: 2097

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение chitatel »

Juliette писал(а):
16.07.2008 10:33
Господа, попрошу не отрываться от темы. Все знают, шо новости у нас никудышные, ЛОР всегда всех обскакивает по новостям, так что что уж теперь...

Ну дык сделайте по клику на раздел "Новости" прямую ссылку LOR. Чего мелочиться-то? :crazy:
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Bluetooth »

Слово "чёрт" пишется через "Ё", молодой человек, и программа не "оно", а "она", поскольку слово женского рода.

люблю людей, пишущих грамотно, но до тех пор, пока они не начинают учить других...
Господа, эта новость была на ЛОРе, причем давно зачем нужно было постить ее здесь ?

с такой логикой новости должны быть только в одном месте.
Спасибо сказали:
Topper
Бывший модератор
Сообщения: 2088
Статус: Насильник бабушек-педофилок
ОС: Windows 10

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Topper »

Bluetooth писал(а):
16.07.2008 14:38
люблю людей, пишущих грамотно, но до тех пор, пока они не начинают учить других...

Особенно если учесть, что форма "чорт" в русском языке допустима, насколько я знаю...
Хрю.
Спасибо сказали:
Аватара пользователя
Goodvin
Ведущий рубрики
Сообщения: 4333
Статус: ⚝⚠⚒⚑⚖☭☞☣☤&

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Goodvin »

Bluetooth писал(а):
16.07.2008 14:38
Слово "чёрт" пишется через "Ё", молодой человек, и программа не "оно", а "она", поскольку слово женского рода.

люблю людей, пишущих грамотно, но до тех пор, пока они не начинают учить других...
См. правила форума.
Спасибо сказали:
ester
Сообщения: 45

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение ester »

Jinn писал(а):
16.07.2008 05:11
ester писал(а):
15.07.2008 08:41
Jinn писал(а):
15.07.2008 06:17
Вообще-то они (фирма) тоже хороши! Обычно создаётся некий фонд, вкладывается капитал, как-то раскручивается всё... А тут? Выложили - и нате вам! Будьте здоровы и делайте чё хотите. Конечно процесс медленно пойдёт!
Вон fr, даже бесплатными какими-то версиями сканеры комплектуют.

Под windows оно вполне работоспособно . Какого чорта фирма его будет бесплатно переписывать под ?

Слово "чёрт" пишется через "Ё", молодой человек, и программа не "оно", а "она", поскольку слово женского рода.

Прошу простить за высказывание не по теме , смысл поста был
Под windows оно (программное решение) вполне работоспособно ...
Спасибо сказали:
Аватара пользователя
Ali1
Сообщения: 2250

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Ali1 »

Программа вполне нормально работает под wine.
Необходимо поставить MSVCRT.DLL и указать ея в wine.cfg
Качество распознавания на уровне 6-7 файнридера.
И это единственное свободное и рабочее решение под Linux.
Спасибо сказали:
t2a
Сообщения: 694
ОС: Sidux-2008-2 (Debian sid)

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение t2a »

"Программа вполне нормально работает под wine."

Тема очень горячая.
Может быть поделитесь опытом в виде подробной, пошаговой инструкции или, наверное лучше, статьи со скриншотами.
Оную и на Rus-Linux.net весьма полезно выложить будет.
Спасибо сказали:
Аватара пользователя
Pradead
Сообщения: 96
ОС: Kubuntu 7.10 8.04, SUSE 10.3

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Pradead »

Под wine 1.0 работает из коробки, но по сети не сканирует, хоть и пытается. С распознованием пока ни как, вылетает ошибка kernel32.dll.
Главное чему учат в школе это читать, а почему-то писать не учат. ©
Нет обеда - есть время Unreal Tournament.
Спасибо сказали:
Аватара пользователя
Ali1
Сообщения: 2250

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Ali1 »

Pradead писал(а):
17.07.2008 11:57
... С распознованием пока ни как, вылетает ошибка kernel32.dll.

MSVCRT.DLL
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

Ali1 писал(а):
17.07.2008 15:46
Pradead писал(а):
17.07.2008 11:57
... С распознованием пока ни как, вылетает ошибка kernel32.dll.
MSVCRT.DLL
http://appdb.winehq.org/objectManager.php?...n&iId=10327
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Jinn »

yaleks писал(а):
17.07.2008 15:48
Ali1 писал(а):
17.07.2008 15:46
Pradead писал(а):
17.07.2008 11:57
... С распознованием пока ни как, вылетает ошибка kernel32.dll.
MSVCRT.DLL
http://appdb.winehq.org/objectManager.php?...n&iId=10327

Вот это уже кое-что! Но либа-то (msvcrt) сама по себе несвободна? Так что исключительно ради лицензионной чистоты нужно копать дальше, не такое оно уж и свободное, решение-то...
Прошу простить за высказывание не по теме , смысл поста был
Цитата
Под windows оно (программное решение) вполне работоспособно ...

И меня простите, смысл был - если все начнём писать в "свободном формате", то недалеко до полного непонимания.
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

Jinn писал(а):
18.07.2008 05:37
Вот это уже кое-что! Но либа-то (msvcrt) сама по себе несвободна? Так что исключительно ради лицензионной чистоты нужно копать дальше, не такое оно уж и свободное, решение-то...
CuneiForm 12 для винды тоже не свободен, а msvcrt допускает распространение как run-time библиотека.
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Bluetooth »

вчера решил скачать, поставил под вайн 1.0rc3 - работает, прочитал на форуме, что надо заменить либу одну. стал и распознавать, но вот только качество распознавания я не смог проверить, т.к. не было приличных картинок с текстом :)
пока писал пост, вспомнил, что есть сканы одной книги в tiff, попробовал открыть -tiff он не понимает :(
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

Bluetooth писал(а):
18.07.2008 15:16
пока писал пост, вспомнил, что есть сканы одной книги в tiff, попробовал открыть -tiff он не понимает :(
TIFF это не простой и формат и у него есть разновидности. Но с такими проблемами лучше на их форум обращаться.
Спасибо сказали:
Аватара пользователя
Bluetooth
Сообщения: 4395
Статус: Блюзовый
ОС: Debian Squeeze amd64

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение Bluetooth »

yaleks писал(а):
18.07.2008 16:15
Bluetooth писал(а):
18.07.2008 15:16
пока писал пост, вспомнил, что есть сканы одной книги в tiff, попробовал открыть -tiff он не понимает :(
TIFF это не простой и формат и у него есть разновидности. Но с такими проблемами лучше на их форум обращаться.

ды на самом деле я просто хотел протестировать распознавание, а так мне этот тифф не требуется распознавать, я лучше для теста специально отсканирую что-нибудь
Спасибо сказали:
astronom
Сообщения: 151
ОС: Debian

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение astronom »

Пока система не научится распознавать pdf, у нее нет шансов, т.к. сейчас даже самая плюгавая контора сидит на ворованных Акробатах с вытекающим из этого обстоятельства документооборота в виде обмена pdf.
Параллельные извилины не пересекаются ...
Спасибо сказали:
yaleks
Сообщения: 2121
Статус: вне статуса
ОС: Gentoo ~

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение yaleks »

astronom писал(а):
20.07.2008 12:11
Пока система не научится распознавать pdf, у нее нет шансов, т.к. сейчас даже самая плюгавая контора сидит на ворованных Акробатах с вытекающим из этого обстоятельства документооборота в виде обмена pdf.

pdf2tiff как это делает FR не катит?
Спасибо сказали:
astronom
Сообщения: 151
ОС: Debian

Re: Российская система распознавания текстов CuneiForm станет открытой

Сообщение astronom »

Нет. Т.к. FR при этом обходится без бубна. А в плюгавых конторах бубен не любят. :tongue: Да и всеми здесь почитаемые блондинки-секретарши не будут в восторге от того, что теперь не могут просто так выбрать в Акробате создание pdf со сканера и пихнуть результат в FR без лишних телодвижений.
Да и в том же 9-м Акробате есть своя OCR, которая справляется намного лучше, чем CF. Да еще и стартует автоматом. :tongue:
Параллельные извилины не пересекаются ...
Спасибо сказали: