OCR для русского текста

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

Аватара пользователя
agbr
Сообщения: 486
ОС: openSUSE 10.2

OCR для русского текста

Сообщение agbr »

Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.

p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
jabber: agbr@jabber.ru

против проприетарного ПО в GNU/Linux
Спасибо сказали:
Аватара пользователя
Skull
Модератор
Сообщения: 2089
ОС: ALT Linux

Re: OCR для русского текста

Сообщение Skull »

(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.

p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...
Skull
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: OCR для русского текста

Сообщение alv »

(Skull @ Вторник, 26 Апреля 2005, 12:05) писал(а):
(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.

p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...



А что - для нерусских есть? Буду признательный за информацию.
Спасибо сказали:
Аватара пользователя
agbr
Сообщения: 486
ОС: openSUSE 10.2

Re: OCR для русского текста

Сообщение agbr »

(Skull @ Вторник, 26 Апреля 2005, 13:05) писал(а):
(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.

p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...



Что из себя предстваляет поддержка русского языка в технических деталях?

agbr добавил в 26.04.2005 14:30

(alv @ Вторник, 26 Апреля 2005, 13:29) писал(а):А что - для нерусских есть? Буду признательный за информацию.


gocr и ocrad, последний я пробовал: с английским текстом вполне работает.
jabber: agbr@jabber.ru

против проприетарного ПО в GNU/Linux
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: OCR для русского текста

Сообщение alv »

(agbr @ Вторник, 26 Апреля 2005, 13:30) писал(а):gocr и ocrad, последний я пробовал: с английским текстом вполне работает.


Спасибо. Отложил вот здесь...

Хотя по хорошему-то, конечно, нужон русскам:-)
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: OCR для русского текста

Сообщение snake »

Поробовал gocr... Могу сказать, что на выходе получаеться ОООООЧЕЕЕЕНЬ низкое качество. :(
Если файнридеор и распознавал когда так, разве что только в первых версиях в году так 93 - 95. Кроме того, работает очень медленно (на моем рабочем PIII-1000 распознавал лист А4 36 сек, для сравнения тот FR на тот же лист тратит порядка 8 - 12 сек). Прилагаю два файла: surce.txt.bz2 -- исходный текст распечатанный лазерным принтереом на листе А4 (занял ровно весь лист) и отсканированный с разрешенем 300 DPI (де-факто стандарт для таких дел), rezult.txt.bz2 -- собственно, что из всего этого получилось. Смотрите, сравнивайте, решайте...
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
VN_MAClover
Сообщения: 1233
Статус: Человек с бульвара Капуцинов

Re: OCR для русского текста

Сообщение VN_MAClover »

Значится, так...
В Vuescan появился движок OCR, пока для английского. Работает пристойно. Надо платить денежку, зато есть стабильно работающая версия под Линукс, что избавляет от мучений с wine.

Я сделал тест на моём Маке. Страница мной же набранного и распечатанного на лазерном принтере английского текста распозналась с двумя ошибками. Та же страница распозналась вообще без ошибок в дорогущих Readiris и OmniPage Pro. Другого софта для Мака нет. Так что качество считается удовлетворительным.

Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: OCR для русского текста

Сообщение snake »

(VN_MAClover @ Вторник, 26 Апреля 2005, 15:15) писал(а):Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.

А что для этого нужно? И может ли в принципе этот движек работать отдельно от Vuescan'а?
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
Skull
Модератор
Сообщения: 2089
ОС: ALT Linux

Re: OCR для русского текста

Сообщение Skull »

(alv @ Вторник, 26 Апреля 2005, 12:29) писал(а):А что - для нерусских есть [OCR]? Буду признательный за информацию.

Я же уже написал. Вот ссылки:
http://jOCR.sourceforge.net/
http://www.gnu.org/software/ocrad/ocrad.html
Skull
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: OCR для русского текста

Сообщение alv »

(Skull @ Среда, 27 Апреля 2005, 10:33) писал(а):
(alv @ Вторник, 26 Апреля 2005, 12:29) писал(а):А что - для нерусских есть [OCR]? Буду признательный за информацию.

Я же уже написал. Вот ссылки:
http://jOCR.sourceforge.net/
http://www.gnu.org/software/ocrad/ocrad.html



Спасибо
Спасибо сказали:
Аватара пользователя
agbr
Сообщения: 486
ОС: openSUSE 10.2

Re: OCR для русского текста

Сообщение agbr »

(VN_MAClover @ Вторник, 26 Апреля 2005, 16:15) писал(а):Значится, так...
В Vuescan появился движок OCR, пока для английского. Работает пристойно. Надо платить денежку, зато есть стабильно работающая версия под Линукс, что избавляет от мучений с wine.

Я сделал тест на моём Маке. Страница мной же набранного и распечатанного на лазерном принтере английского текста распозналась с двумя ошибками. Та же страница распозналась вообще без ошибок в дорогущих Readiris и OmniPage Pro. Другого софта для Мака нет. Так что качество считается удовлетворительным.

Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.


Чтобы я за софт под linux платил денежку? Товарищ, идите на х[ consored ], пожалуйста!
jabber: agbr@jabber.ru

против проприетарного ПО в GNU/Linux
Спасибо сказали:
Аватара пользователя
ami
Сообщения: 210
Статус: awb
ОС: FreeBSD

Re: OCR для русского текста

Сообщение ami »

Все дело не в том, что надо платить. Я уважаю труд программиста и я ему заплачу. Но только если действительно оно того стоит. Про продукцию одной любимой конторы ваше мнение действительно похоже - за отделанную почти по последнему шику копеечку ВАЗ (но все же копеечку), хотят денюжек как за новый BMW 7-й серии. Но вот часть софта у меня под виндой куплена, да и под линуксом я уже немного денюжков подкидал на некоторые проекты. Потому как кушать всем хочется... А тянуть проект не получая от него никакой выгоды... именно поэтому они и умерли, большинством своим...

Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
work: ubuntu-server (freebsd for www)
home: freebsd
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: OCR для русского текста

Сообщение Jinn »

Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...

Да движок-то они всё-же портировали, только не дают никому..
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: OCR для русского текста

Сообщение t.t »

(agbr @ Среда, 27 Апреля 2005, 16:00) писал(а):Чтобы я за софт под linux платил денежку? Товарищ, идите на х[ consored ], пожалуйста!
А вы, извините, где-то указали, что не хотите платный софт ни под каким соусом? Нет. Ну так чего ругаетесь?
(ami @ Среда, 27 Апреля 2005, 16:35) писал(а):Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
Сам Файн, насколько мне известно, никто портировать не собирался. А вот FineReader Engine уже давно есть.
(Jinn @ Четверг, 28 Апреля 2005, 9:23) писал(а):Да движок-то они всё-же портировали, только не дают никому..
Почему же не дают? Пожалуйста, 16 килограм капусты...
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
agbr
Сообщения: 486
ОС: openSUSE 10.2

Re: OCR для русского текста

Сообщение agbr »

(t.t @ Четверг, 28 Апреля 2005, 12:07) писал(а):
(Jinn @ Четверг, 28 Апреля 2005, 9:23) писал(а):Да движок-то они всё-же портировали, только не дают никому..
Почему же не дают? Пожалуйста, 16 килограм капусты...



Исходники прилагаются? Если я и буду платить деньги за какую-либо программу, то обязательным условием является предоставление исходников, с правом модификации, изучения и пр. Софт с закрытыми исходниками не предоставляется мне полностью => как можно платить деньги за непроданный товар?
jabber: agbr@jabber.ru

против проприетарного ПО в GNU/Linux
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: OCR для русского текста

Сообщение t.t »

(agbr @ Четверг, 28 Апреля 2005, 12:39) писал(а):Исходники прилагаются? Если я и буду платить деньги за какую-либо программу, то обязательным условием является предоставление исходников, с правом модификации, изучения и пр. Софт с закрытыми исходниками не предоставляется мне полностью => как можно платить деньги за непроданный товар?
Я непосредственно engin'ом не занимаюсь -- насчёт исходников сказать не могу. Но могу разузнать, если надо :) А что, цена устраивает? :)
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: OCR для русского текста

Сообщение Jinn »

Какие это такие 16 килограм? Какой ещё капусты? Люди добрые! За что боролись? Они же ёё бесплатно во все сканеры вкладывают! А за линуховый движок, значит, давай плати?
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: OCR для русского текста

Сообщение snake »

(Jinn @ Пятница, 29 Апреля 2005, 8:32) писал(а):Какие это такие 16 килограм? Какой ещё капусты? Люди добрые! За что боролись? Они же ёё бесплатно во все сканеры вкладывают! А за линуховый движок, значит, давай плати?

Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно. Сравнить полноценный движек, наскока я понимаю, сделанный для разработчиков, с покоцанными и убогими try&buy версиями, это ну ни в какие ворота! :wacko:
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: OCR для русского текста

Сообщение t.t »

(snake @ Пятница, 29 Апреля 2005, 10:31) писал(а):Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно. Сравнить полноценный движек, наскока я понимаю, сделанный для разработчиков, с покоцанными и убогими try&buy версиями, это ну ни в какие ворота!
Логично. Движок -- это фактически открытый API. Он и под винды дорогой; не 16к, конечно (точно не помню, сколько), но дорогой. А то, что шло бесплатно со сканерами, это скорее всего действительно Try&Buy, где только смотри -- даже текст через буфер скопировать нельзя, или максимум Home Edition, урезанная как только можно. Под Линукс их просто нет, потому как нерентабельно. Думаете, почему за Engine такую цену загнули? Скорее всего потому, что портировали его под один конкретный заказ -- так что это почти порог рентабельности (ну а другим дешевле не продавать -- это уже маркетинговая политика). Если Файн Проф стоит 120 зелёных президентов, а Файн Хоум -- 30, то сравните доли рынка, сравните покупательную способность этих рынков -- и станет очевидно, что в портирование самого Файна при нынешней ситуации просто не резон вкладываться.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: OCR для русского текста

Сообщение ddc »

Для Jinn:
Ну это смотря кто за что боролся. Я вот борюсь за "Free Software for free people", и получаю ocrad и gocr в видек jocr. Может быть, если будет мне нужно распознавание, поучаствую в русификации.
А Вы за что боретесь? За бесплатное ПО?
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: OCR для русского текста

Сообщение StraNNicK »

*мрачно*
За идеалы Жадных Детей (с)...
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: OCR для русского текста

Сообщение alv »

*еще более мрачно*

Мы - за свободное слово. А на пиво денег уж как-нибудь наскребем
Спасибо сказали:
Аватара пользователя
agbr
Сообщения: 486
ОС: openSUSE 10.2

Re: OCR для русского текста

Сообщение agbr »

(czarker @ Пятница, 29 Апреля 2005, 16:30) писал(а):Для Jinn:
Ну это смотря кто за что боролся. Я вот борюсь за "Free Software for free people", и получаю ocrad и gocr в видек jocr. Может быть, если будет мне нужно распознавание, поучаствую в русификации.
А Вы за что боретесь? За бесплатное ПО?


Я тоже поучаю ocrad и gocr, однако на вопрос: "че конкретно надо делать?" (смотреть начало ветки) мне никто не ответил; но вместо этого предложили купить за 16 кило капусты неопенсорсную библиотеку.
jabber: agbr@jabber.ru

против проприетарного ПО в GNU/Linux
Спасибо сказали:
Аватара пользователя
ami
Сообщения: 210
Статус: awb
ОС: FreeBSD

Re: OCR для русского текста

Сообщение ami »

Так а какие возмущения - кроме файна даже под виндой нет нормальных аналогов. Был по моему КунейФорм... Куда он делся? А есть еще пара распознавалок английского... Только, они же нам не катят?
work: ubuntu-server (freebsd for www)
home: freebsd
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: OCR для русского текста

Сообщение ddc »

Для agbr:
И что? Не хочешь покупать - сделай сам. Не можешь сделать - не жужжи. Jinn зажужжал и получил за это; что характерно, не только от меня...
Спасибо сказали:
Аватара пользователя
Skull
Модератор
Сообщения: 2089
ОС: ALT Linux

Re: OCR для русского текста

Сообщение Skull »

(agbr @ Суббота, 30 Апреля 2005, 14:58) писал(а):Я тоже поучаю ocrad и gocr, однако на вопрос: "че конкретно надо делать?" (смотреть начало ветки) мне никто не ответил; но вместо этого предложили купить за 16 кило капусты неопенсорсную библиотеку.
Надо попробовать самостоятельно (или в связке с автором) добавить поддежку распознавания русского в эти продукты. И уговорить включить эту поддержку в новые версии.
Skull
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: OCR для русского текста

Сообщение Jinn »

Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно.

Так-так-так... А позвольте полюбопытствовать.. Компиляторы для своего движка они за сколько килограмм капусты покупали?.. А интегрированные среды разработки, которыми пользовались?!.. Дебугеры, профилеры??.. Ну и как тогда это назвать?.. Ох и горазды вы, ребята, ярлыки-то вешать!
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: OCR для русского текста

Сообщение StraNNicK »

Ох и горазды же Вы облыжно обвинять других в своих грехах!
У вас есть _точная_ информация, что они (как видимо привыкли Вы) ользуют ворованный софт?
Или это так? Клевета вульгарис?
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
Jinn
Сообщения: 698
Статус: Интересующийся бывалый прохожий

Re: OCR для русского текста

Сообщение Jinn »

Ох и горазды же Вы облыжно обвинять других в своих грехах!
У вас есть _точная_ информация, что они (как видимо привыкли Вы) ользуют ворованный софт?
Или это так? Клевета вульгарис?

И кого же это я там обвинил? И в чём мои грехи? А что софт у них не ворованный (вместе с самой системой кстати) - так я даже и не сомневаюсь ничуть! Просто поинтересовался вежливо...
Don't trouble troubles until troubles trouble you!
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: OCR для русского текста

Сообщение ddc »

(Jinn @ Среда, 04 Мая 2005, 1:33) писал(а):Компиляторы для своего движка они за сколько килограмм капусты покупали?.. А интегрированные среды разработки, которыми пользовались?!.. Дебугеры, профилеры??..
И что? Т.е. если я что-то делаю под Linux, то не имею права брать за это деньги? Чушь!
P.S.: Вот именно поэтому мы (по крайней мере я) и обвинял тебя в непонимании концепции "Free as Freedom Software" и любви к "free beer"...
Спасибо сказали: