[NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Обсуждение новостей, соответствующих тематике форума

Модератор: Модераторы разделов

Аватара пользователя
Dmitry Shurupov
Сообщения: 336
Статус: Open Source geek
ОС: Ubuntu Linux

[NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение Dmitry Shurupov »

Неизвестный читатель Slashdot представил общественности обнаруженный им проект LiveCD Linux-дистрибутива WatchOCR, предназначенного для быстрого и простого распознавания текста в PDF-файлах. WatchOCR позиционируется как «свободный OCR-сервер для PDF». Он основан на LiveCD-дистрибутиве Knoppix и использует Open Source-средства CuneiForm и ExactImage для выполнения работы по распознаванию текста. В WatchOCR доступен простой веб-интерфейс, позволяющий удаленно настроить слежение за каталогом на факт поступления новых отсканированных PDF-файлов. При появлении таких файлов (PDF с изображениями) WatchOCR преобразует их в PDF с распознанным текстом. Подробности о WatchOCR, статьи по его установке и настройке, а также форум доступны на сайте проекта.

оригинал на www.nixp.ru
По-моему, это еще один повод перейти на Убунту.
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение sash-kan »

Dmitry Shurupov писал(а):
23.07.2010 13:26
обнаруженный им проект
проект обнаружен во время раскопок в египте?
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали:
Аватара пользователя
Karbofos
Сообщения: 266
ОС: Gentoo

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение Karbofos »

а live-cd для извлечения дисков ещё не придумали?
Спасибо сказали:
Аватара пользователя
Dmitry Shurupov
Сообщения: 336
Статус: Open Source geek
ОС: Ubuntu Linux

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение Dmitry Shurupov »

sash-kan писал(а):
23.07.2010 13:47
Dmitry Shurupov писал(а):
23.07.2010 13:26
обнаруженный им проект
проект обнаружен во время раскопок в египте?

Да, примерно так. Часто же бывает, что появляется относительно интересный для масс проект, но про него никто не знает, пока какой-нибудь энтузиаст не закинет анонс в тематическое СМИ. Вот яркий тому пример.
По-моему, это еще один повод перейти на Убунту.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение t.t »

Только с распознаванием кириллицы у Cuneiform, насколько я знаю, всё плохо.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
sciko
Сообщения: 1744
Статус: Ъ-участник
ОС: Debian/Ubuntu/etc

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение sciko »

t.t писал(а):
26.07.2010 13:34
Только с распознаванием кириллицы у Cuneiform, насколько я знаю, всё плохо.
Наоборот. Как раз с распознаванием кириллицы у Cuneiform лучше остальных. Но там в глубине до фига багов и не очень прямой код. Наследие бурной молодости, десу.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение t.t »

Лучше остальных открытых Вы имеете ввиду? Т.е. лучше, чем совсем никак?
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
sciko
Сообщения: 1744
Статус: Ъ-участник
ОС: Debian/Ubuntu/etc

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение sciko »

t.t писал(а):
26.07.2010 13:54
Лучше остальных открытых Вы имеете ввиду?
Да. Если и хуже файнридера, то не намного.

t.t писал(а):
26.07.2010 13:54
Т.е. лучше, чем совсем никак?
Тессу можно обучить русскому. На счёт остальных не знаю, не пробовал.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение t.t »

Обучить можно вручную, или уже есть автообучние? А у Cuneiform «из коробки» сносное распознавание кириллицы?

Возможно, я отстал от жизни в этом вопросе, прошу прощения.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Lazy_Kent
Сообщения: 709
Статус: Ленивый
ОС: openSUSE (Xfce)

Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF

Сообщение Lazy_Kent »

У Cuneiform очень хорошее распознавание кириллицы. Обучения, как я понял, нет никакого.
Спасибо сказали: