Неизвестный читатель Slashdot представил общественности обнаруженный им проект LiveCD Linux-дистрибутива WatchOCR, предназначенного для быстрого и простого распознавания текста в PDF-файлах.
WatchOCR позиционируется как «свободный OCR-сервер для PDF». Он основан на LiveCD-дистрибутиве Knoppix и использует Open Source-средства CuneiForm и ExactImage для выполнения работы по распознаванию текста. В WatchOCR доступен простой веб-интерфейс, позволяющий удаленно настроить слежение за каталогом на факт поступления новых отсканированных PDF-файлов. При появлении таких файлов (PDF с изображениями) WatchOCR преобразует их в PDF с распознанным текстом.
Подробности о WatchOCR, статьи по его установке и настройке, а также форум доступны на сайте проекта.
оригинал на www.nixp.ru
[NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
Модератор: Модераторы разделов
-
Dmitry Shurupov
- Сообщения: 336
- Статус: Open Source geek
- ОС: Ubuntu Linux
[NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
По-моему, это еще один повод перейти на Убунту.
-
sash-kan
- Администратор
- Сообщения: 13939
- Статус: oel ngati kameie
- ОС: GNU
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
проект обнаружен во время раскопок в египте?
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
при сбоях форума см.блог
-
Karbofos
- Сообщения: 266
- ОС: Gentoo
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
а live-cd для извлечения дисков ещё не придумали?
-
Dmitry Shurupov
- Сообщения: 336
- Статус: Open Source geek
- ОС: Ubuntu Linux
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
Да, примерно так. Часто же бывает, что появляется относительно интересный для масс проект, но про него никто не знает, пока какой-нибудь энтузиаст не закинет анонс в тематическое СМИ. Вот яркий тому пример.
По-моему, это еще один повод перейти на Убунту.
-
t.t
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
Только с распознаванием кириллицы у Cuneiform, насколько я знаю, всё плохо.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
sciko
- Сообщения: 1744
- Статус: Ъ-участник
- ОС: Debian/Ubuntu/etc
-
t.t
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
Лучше остальных открытых Вы имеете ввиду? Т.е. лучше, чем совсем никак?
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
sciko
- Сообщения: 1744
- Статус: Ъ-участник
- ОС: Debian/Ubuntu/etc
-
t.t
- Бывший модератор
- Сообщения: 7390
- Статус: думающий о вечном
- ОС: Debian, LMDE
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
Обучить можно вручную, или уже есть автообучние? А у Cuneiform «из коробки» сносное распознавание кириллицы?
Возможно, я отстал от жизни в этом вопросе, прошу прощения.
Возможно, я отстал от жизни в этом вопросе, прошу прощения.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
-
Lazy_Kent
- Сообщения: 709
- Статус: Ленивый
- ОС: openSUSE (Xfce)
Re: [NIXP] WatchOCR — LiveCD Linux для распознавания текста в PDF
У Cuneiform очень хорошее распознавание кириллицы. Обучения, как я понял, нет никакого.