OCR для русского текста
Модератор: /dev/random
-
- Сообщения: 486
- ОС: openSUSE 10.2
OCR для русского текста
Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.
p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
jabber: agbr@jabber.ru
против проприетарного ПО в GNU/Linux
против проприетарного ПО в GNU/Linux
-
- Модератор
- Сообщения: 2089
- ОС: ALT Linux
Re: OCR для русского текста
Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.
p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
Skull
-
- Бывший модератор
- Сообщения: 7275
- Статус: Пенсионер в законе
- ОС: Cintu
Re: OCR для русского текста
(Skull @ Вторник, 26 Апреля 2005, 12:05) писал(а):Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.
p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
А что - для нерусских есть? Буду признательный за информацию.
-
- Сообщения: 486
- ОС: openSUSE 10.2
Re: OCR для русского текста
(Skull @ Вторник, 26 Апреля 2005, 13:05) писал(а):Увы, у русских просто нет ресурсов для поддержки распознавания в gocr/ocrad. Кто бы сделал...(agbr @ Понедельник, 25 Апреля 2005, 15:55) писал(а):Существует subj в природе? видел для латиницы, вполне прилично, но для кириллических символов так и не нашёл.
p.s. если не водится, то киньтесь ссылкой с маном по установке FineReader под Wine.
Что из себя предстваляет поддержка русского языка в технических деталях?
agbr добавил в 26.04.2005 14:30
(alv @ Вторник, 26 Апреля 2005, 13:29) писал(а):А что - для нерусских есть? Буду признательный за информацию.
gocr и ocrad, последний я пробовал: с английским текстом вполне работает.
jabber: agbr@jabber.ru
против проприетарного ПО в GNU/Linux
против проприетарного ПО в GNU/Linux
-
- Бывший модератор
- Сообщения: 7275
- Статус: Пенсионер в законе
- ОС: Cintu
Re: OCR для русского текста
(agbr @ Вторник, 26 Апреля 2005, 13:30) писал(а):gocr и ocrad, последний я пробовал: с английским текстом вполне работает.
Спасибо. Отложил вот здесь...
Хотя по хорошему-то, конечно, нужон русскам:-)
-
- Бывший модератор
- Сообщения: 677
Re: OCR для русского текста
Поробовал gocr... Могу сказать, что на выходе получаеться ОООООЧЕЕЕЕНЬ низкое качество. 
Если файнридеор и распознавал когда так, разве что только в первых версиях в году так 93 - 95. Кроме того, работает очень медленно (на моем рабочем PIII-1000 распознавал лист А4 36 сек, для сравнения тот FR на тот же лист тратит порядка 8 - 12 сек). Прилагаю два файла: surce.txt.bz2 -- исходный текст распечатанный лазерным принтереом на листе А4 (занял ровно весь лист) и отсканированный с разрешенем 300 DPI (де-факто стандарт для таких дел), rezult.txt.bz2 -- собственно, что из всего этого получилось. Смотрите, сравнивайте, решайте...

Если файнридеор и распознавал когда так, разве что только в первых версиях в году так 93 - 95. Кроме того, работает очень медленно (на моем рабочем PIII-1000 распознавал лист А4 36 сек, для сравнения тот FR на тот же лист тратит порядка 8 - 12 сек). Прилагаю два файла: surce.txt.bz2 -- исходный текст распечатанный лазерным принтереом на листе А4 (занял ровно весь лист) и отсканированный с разрешенем 300 DPI (де-факто стандарт для таких дел), rezult.txt.bz2 -- собственно, что из всего этого получилось. Смотрите, сравнивайте, решайте...
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
JabberID: zmeyk@jabber.ru
-
- Сообщения: 1233
- Статус: Человек с бульвара Капуцинов
Re: OCR для русского текста
Значится, так...
В Vuescan появился движок OCR, пока для английского. Работает пристойно. Надо платить денежку, зато есть стабильно работающая версия под Линукс, что избавляет от мучений с wine.
Я сделал тест на моём Маке. Страница мной же набранного и распечатанного на лазерном принтере английского текста распозналась с двумя ошибками. Та же страница распозналась вообще без ошибок в дорогущих Readiris и OmniPage Pro. Другого софта для Мака нет. Так что качество считается удовлетворительным.
Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.
В Vuescan появился движок OCR, пока для английского. Работает пристойно. Надо платить денежку, зато есть стабильно работающая версия под Линукс, что избавляет от мучений с wine.
Я сделал тест на моём Маке. Страница мной же набранного и распечатанного на лазерном принтере английского текста распозналась с двумя ошибками. Та же страница распозналась вообще без ошибок в дорогущих Readiris и OmniPage Pro. Другого софта для Мака нет. Так что качество считается удовлетворительным.
Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
-
- Бывший модератор
- Сообщения: 677
Re: OCR для русского текста
(VN_MAClover @ Вторник, 26 Апреля 2005, 15:15) писал(а):Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.
А что для этого нужно? И может ли в принципе этот движек работать отдельно от Vuescan'а?
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
JabberID: zmeyk@jabber.ru
-
- Модератор
- Сообщения: 2089
- ОС: ALT Linux
Re: OCR для русского текста
(alv @ Вторник, 26 Апреля 2005, 12:29) писал(а):А что - для нерусских есть [OCR]? Буду признательный за информацию.
Я же уже написал. Вот ссылки:
http://jOCR.sourceforge.net/
http://www.gnu.org/software/ocrad/ocrad.html
Skull
-
- Бывший модератор
- Сообщения: 7275
- Статус: Пенсионер в законе
- ОС: Cintu
Re: OCR для русского текста
(Skull @ Среда, 27 Апреля 2005, 10:33) писал(а):(alv @ Вторник, 26 Апреля 2005, 12:29) писал(а):А что - для нерусских есть [OCR]? Буду признательный за информацию.
Я же уже написал. Вот ссылки:
http://jOCR.sourceforge.net/
http://www.gnu.org/software/ocrad/ocrad.html
Спасибо
-
- Сообщения: 486
- ОС: openSUSE 10.2
Re: OCR для русского текста
(VN_MAClover @ Вторник, 26 Апреля 2005, 16:15) писал(а):Значится, так...
В Vuescan появился движок OCR, пока для английского. Работает пристойно. Надо платить денежку, зато есть стабильно работающая версия под Линукс, что избавляет от мучений с wine.
Я сделал тест на моём Маке. Страница мной же набранного и распечатанного на лазерном принтере английского текста распозналась с двумя ошибками. Та же страница распозналась вообще без ошибок в дорогущих Readiris и OmniPage Pro. Другого софта для Мака нет. Так что качество считается удовлетворительным.
Автор просит помочь с добавлением поддержки других языков. Когда она будет появляться, то версия для Линукс будет её получать автоматом.
Чтобы я за софт под linux платил денежку? Товарищ, идите на х[ consored ], пожалуйста!
jabber: agbr@jabber.ru
против проприетарного ПО в GNU/Linux
против проприетарного ПО в GNU/Linux
-
- Сообщения: 210
- Статус: awb
- ОС: FreeBSD
Re: OCR для русского текста
Все дело не в том, что надо платить. Я уважаю труд программиста и я ему заплачу. Но только если действительно оно того стоит. Про продукцию одной любимой конторы ваше мнение действительно похоже - за отделанную почти по последнему шику копеечку ВАЗ (но все же копеечку), хотят денюжек как за новый BMW 7-й серии. Но вот часть софта у меня под виндой куплена, да и под линуксом я уже немного денюжков подкидал на некоторые проекты. Потому как кушать всем хочется... А тянуть проект не получая от него никакой выгоды... именно поэтому они и умерли, большинством своим...
Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
work: ubuntu-server (freebsd for www)
home: freebsd
home: freebsd
-
- Сообщения: 698
- Статус: Интересующийся бывалый прохожий
Re: OCR для русского текста
Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
Да движок-то они всё-же портировали, только не дают никому..
Don't trouble troubles until troubles trouble you!
-
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: OCR для русского текста
А вы, извините, где-то указали, что не хотите платный софт ни под каким соусом? Нет. Ну так чего ругаетесь?(agbr @ Среда, 27 Апреля 2005, 16:00) писал(а):Чтобы я за софт под linux платил денежку? Товарищ, идите на х[ consored ], пожалуйста!
Сам Файн, насколько мне известно, никто портировать не собирался. А вот FineReader Engine уже давно есть.(ami @ Среда, 27 Апреля 2005, 16:35) писал(а):Вот я так думаю = когда же будет что-то похожее на FineReader для Linux? Хотя бы как 5-й версии?
Слышал что ведь собирались АББИ портировать, но передумали...
Почему же не дают? Пожалуйста, 16 килограм капусты...(Jinn @ Четверг, 28 Апреля 2005, 9:23) писал(а):Да движок-то они всё-же портировали, только не дают никому..
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
- Сообщения: 486
- ОС: openSUSE 10.2
Re: OCR для русского текста
Исходники прилагаются? Если я и буду платить деньги за какую-либо программу, то обязательным условием является предоставление исходников, с правом модификации, изучения и пр. Софт с закрытыми исходниками не предоставляется мне полностью => как можно платить деньги за непроданный товар?
jabber: agbr@jabber.ru
против проприетарного ПО в GNU/Linux
против проприетарного ПО в GNU/Linux
-
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: OCR для русского текста
Я непосредственно engin'ом не занимаюсь -- насчёт исходников сказать не могу. Но могу разузнать, если надо(agbr @ Четверг, 28 Апреля 2005, 12:39) писал(а):Исходники прилагаются? Если я и буду платить деньги за какую-либо программу, то обязательным условием является предоставление исходников, с правом модификации, изучения и пр. Софт с закрытыми исходниками не предоставляется мне полностью => как можно платить деньги за непроданный товар?


¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
- Сообщения: 698
- Статус: Интересующийся бывалый прохожий
Re: OCR для русского текста
Какие это такие 16 килограм? Какой ещё капусты? Люди добрые! За что боролись? Они же ёё бесплатно во все сканеры вкладывают! А за линуховый движок, значит, давай плати?
Don't trouble troubles until troubles trouble you!
-
- Бывший модератор
- Сообщения: 677
Re: OCR для русского текста
(Jinn @ Пятница, 29 Апреля 2005, 8:32) писал(а):Какие это такие 16 килограм? Какой ещё капусты? Люди добрые! За что боролись? Они же ёё бесплатно во все сканеры вкладывают! А за линуховый движок, значит, давай плати?
Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно. Сравнить полноценный движек, наскока я понимаю, сделанный для разработчиков, с покоцанными и убогими try&buy версиями, это ну ни в какие ворота!

В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
JabberID: zmeyk@jabber.ru
-
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: OCR для русского текста
Логично. Движок -- это фактически открытый API. Он и под винды дорогой; не 16к, конечно (точно не помню, сколько), но дорогой. А то, что шло бесплатно со сканерами, это скорее всего действительно Try&Buy, где только смотри -- даже текст через буфер скопировать нельзя, или максимум Home Edition, урезанная как только можно. Под Линукс их просто нет, потому как нерентабельно. Думаете, почему за Engine такую цену загнули? Скорее всего потому, что портировали его под один конкретный заказ -- так что это почти порог рентабельности (ну а другим дешевле не продавать -- это уже маркетинговая политика). Если Файн Проф стоит 120 зелёных президентов, а Файн Хоум -- 30, то сравните доли рынка, сравните покупательную способность этих рынков -- и станет очевидно, что в портирование самого Файна при нынешней ситуации просто не резон вкладываться.(snake @ Пятница, 29 Апреля 2005, 10:31) писал(а):Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно. Сравнить полноценный движек, наскока я понимаю, сделанный для разработчиков, с покоцанными и убогими try&buy версиями, это ну ни в какие ворота!
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
- Бывший модератор
- Сообщения: 3535
- Статус: OpenBSD-compatible
- ОС: OpenBSD -current
Re: OCR для русского текста
Для Jinn:
Ну это смотря кто за что боролся. Я вот борюсь за "Free Software for free people", и получаю ocrad и gocr в видек jocr. Может быть, если будет мне нужно распознавание, поучаствую в русификации.
А Вы за что боретесь? За бесплатное ПО?
Ну это смотря кто за что боролся. Я вот борюсь за "Free Software for free people", и получаю ocrad и gocr в видек jocr. Может быть, если будет мне нужно распознавание, поучаствую в русификации.
А Вы за что боретесь? За бесплатное ПО?
-
- Бывший модератор
- Сообщения: 1005
- Статус: добрый хиппи
Re: OCR для русского текста
*мрачно*
За идеалы Жадных Детей (с)...
За идеалы Жадных Детей (с)...
Ушёл навсегда. В личку не заглядываю.
-
- Бывший модератор
- Сообщения: 7275
- Статус: Пенсионер в законе
- ОС: Cintu
Re: OCR для русского текста
*еще более мрачно*
Мы - за свободное слово. А на пиво денег уж как-нибудь наскребем
Мы - за свободное слово. А на пиво денег уж как-нибудь наскребем
-
- Сообщения: 486
- ОС: openSUSE 10.2
Re: OCR для русского текста
(czarker @ Пятница, 29 Апреля 2005, 16:30) писал(а):Для Jinn:
Ну это смотря кто за что боролся. Я вот борюсь за "Free Software for free people", и получаю ocrad и gocr в видек jocr. Может быть, если будет мне нужно распознавание, поучаствую в русификации.
А Вы за что боретесь? За бесплатное ПО?
Я тоже поучаю ocrad и gocr, однако на вопрос: "че конкретно надо делать?" (смотреть начало ветки) мне никто не ответил; но вместо этого предложили купить за 16 кило капусты неопенсорсную библиотеку.
jabber: agbr@jabber.ru
против проприетарного ПО в GNU/Linux
против проприетарного ПО в GNU/Linux
-
- Сообщения: 210
- Статус: awb
- ОС: FreeBSD
Re: OCR для русского текста
Так а какие возмущения - кроме файна даже под виндой нет нормальных аналогов. Был по моему КунейФорм... Куда он делся? А есть еще пара распознавалок английского... Только, они же нам не катят?
work: ubuntu-server (freebsd for www)
home: freebsd
home: freebsd
-
- Бывший модератор
- Сообщения: 3535
- Статус: OpenBSD-compatible
- ОС: OpenBSD -current
Re: OCR для русского текста
Для agbr:
И что? Не хочешь покупать - сделай сам. Не можешь сделать - не жужжи. Jinn зажужжал и получил за это; что характерно, не только от меня...
И что? Не хочешь покупать - сделай сам. Не можешь сделать - не жужжи. Jinn зажужжал и получил за это; что характерно, не только от меня...
-
- Модератор
- Сообщения: 2089
- ОС: ALT Linux
Re: OCR для русского текста
Надо попробовать самостоятельно (или в связке с автором) добавить поддежку распознавания русского в эти продукты. И уговорить включить эту поддержку в новые версии.(agbr @ Суббота, 30 Апреля 2005, 14:58) писал(а):Я тоже поучаю ocrad и gocr, однако на вопрос: "че конкретно надо делать?" (смотреть начало ветки) мне никто не ответил; но вместо этого предложили купить за 16 кило капусты неопенсорсную библиотеку.
Skull
-
- Сообщения: 698
- Статус: Интересующийся бывалый прохожий
Re: OCR для русского текста
Извините, но это уже шариковщина! За скока хотят за стока и продают. Не нравиться -- напишите лучше и раздавайте бесплатно.
Так-так-так... А позвольте полюбопытствовать.. Компиляторы для своего движка они за сколько килограмм капусты покупали?.. А интегрированные среды разработки, которыми пользовались?!.. Дебугеры, профилеры??.. Ну и как тогда это назвать?.. Ох и горазды вы, ребята, ярлыки-то вешать!
Don't trouble troubles until troubles trouble you!
-
- Бывший модератор
- Сообщения: 1005
- Статус: добрый хиппи
Re: OCR для русского текста
Ох и горазды же Вы облыжно обвинять других в своих грехах!
У вас есть _точная_ информация, что они (как видимо привыкли Вы) ользуют ворованный софт?
Или это так? Клевета вульгарис?
У вас есть _точная_ информация, что они (как видимо привыкли Вы) ользуют ворованный софт?
Или это так? Клевета вульгарис?
Ушёл навсегда. В личку не заглядываю.
-
- Сообщения: 698
- Статус: Интересующийся бывалый прохожий
Re: OCR для русского текста
Ох и горазды же Вы облыжно обвинять других в своих грехах!
У вас есть _точная_ информация, что они (как видимо привыкли Вы) ользуют ворованный софт?
Или это так? Клевета вульгарис?
И кого же это я там обвинил? И в чём мои грехи? А что софт у них не ворованный (вместе с самой системой кстати) - так я даже и не сомневаюсь ничуть! Просто поинтересовался вежливо...
Don't trouble troubles until troubles trouble you!
-
- Бывший модератор
- Сообщения: 3535
- Статус: OpenBSD-compatible
- ОС: OpenBSD -current
Re: OCR для русского текста
И что? Т.е. если я что-то делаю под Linux, то не имею права брать за это деньги? Чушь!(Jinn @ Среда, 04 Мая 2005, 1:33) писал(а):Компиляторы для своего движка они за сколько килограмм капусты покупали?.. А интегрированные среды разработки, которыми пользовались?!.. Дебугеры, профилеры??..
P.S.: Вот именно поэтому мы (по крайней мере я) и обвинял тебя в непонимании концепции "Free as Freedom Software" и любви к "free beer"...