Есть такая потребность, но опять же не знаю с какой стороны зайти.
Нужно распарсить текст книги, выделив все повторяющиеся фразы из 2х и более слов и + подсчитать количество вхождений этих фраз. Вероятно сначала нужно искать самые длинные фразы, и то что найдено дальше в поиске наверно участвовать не должно. Потом мельче, мельче и в конце двухсловные варианты. Даже алгоритм не соображу какой. Ну и на чем делать тоже вопрос. Я только Си чуть-чуть понимаю, но это явно не тот язык который нужен. Perl осваивать?
(ASCII не UTF)
Выделение фраз из текста.
Модератор: Модераторы разделов
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: Выделение фраз из текста.
Что есть фраза? Любая последовательность слов? Perl, да, в принципе неплохо для обработки текста подходит.
-
Bizdelnick
- Модератор
- Сообщения: 21352
- Статус: nulla salus bello
- ОС: Debian GNU/Linux
Re: Выделение фраз из текста.
Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.
Как инструмент - да, Perl. Осилить 5 главу кемел-бука будет достаточно.
Пишите правильно:
| в консоли вку́пе (с чем-либо) в общем вообще | в течение (часа) новичок нюанс по умолчанию | приемлемо проблема пробовать трафик |
-
xserver
- Сообщения: 16
Re: Выделение фраз из текста.
Что есть фраза? Любая последовательность слов?
Да любая последовательность слов повторяющаяся в книге 2 и больше раз.
Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.
Одна большая книга это самый минимум, лучше 10-20 обработать. Нужно выделить "устойчивые выражения". Может имеет смысл ограничить сверху количество слов в искомых фразах скажем максимум 5-6.
Осилить 5 главу кемел-бука будет достаточно.
Читаю, просветляюсь.