Выделение фраз из текста.

Модератор: Модераторы разделов

xserver
Сообщения: 16

Выделение фраз из текста.

Сообщение xserver »

Есть такая потребность, но опять же не знаю с какой стороны зайти.
Нужно распарсить текст книги, выделив все повторяющиеся фразы из 2х и более слов и + подсчитать количество вхождений этих фраз. Вероятно сначала нужно искать самые длинные фразы, и то что найдено дальше в поиске наверно участвовать не должно. Потом мельче, мельче и в конце двухсловные варианты. Даже алгоритм не соображу какой. Ну и на чем делать тоже вопрос. Я только Си чуть-чуть понимаю, но это явно не тот язык который нужен. Perl осваивать?
(ASCII не UTF)
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Выделение фраз из текста.

Сообщение NickLion »

Что есть фраза? Любая последовательность слов? Perl, да, в принципе неплохо для обработки текста подходит.
Спасибо сказали:
Аватара пользователя
Bizdelnick
Модератор
Сообщения: 21352
Статус: nulla salus bello
ОС: Debian GNU/Linux

Re: Выделение фраз из текста.

Сообщение Bizdelnick »

xserver писал(а):
20.02.2013 19:22
Нужно распарсить текст книги, выделив все повторяющиеся фразы из 2х и более слов и + подсчитать количество вхождений этих фраз.

Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.

Как инструмент - да, Perl. Осилить 5 главу кемел-бука будет достаточно.
Пишите правильно:
в консоли
вку́пе (с чем-либо)
в общем
вообще
в течение (часа)
новичок
нюанс
по умолчанию
приемлемо
проблема
пробовать
трафик
Спасибо сказали:
xserver
Сообщения: 16

Re: Выделение фраз из текста.

Сообщение xserver »

Что есть фраза? Любая последовательность слов?

Да любая последовательность слов повторяющаяся в книге 2 и больше раз.

Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.

Одна большая книга это самый минимум, лучше 10-20 обработать. Нужно выделить "устойчивые выражения". Может имеет смысл ограничить сверху количество слов в искомых фразах скажем максимум 5-6.

Осилить 5 главу кемел-бука будет достаточно.

Читаю, просветляюсь.
Спасибо сказали: