Выделение фраз из текста.

xserver · Сообщение **xserver** » 20.02.2013 19:22

Есть такая потребность, но опять же не знаю с какой стороны зайти.
Нужно распарсить текст книги, выделив все повторяющиеся фразы из 2х и более слов и + подсчитать количество вхождений этих фраз. Вероятно сначала нужно искать самые длинные фразы, и то что найдено дальше в поиске наверно участвовать не должно. Потом мельче, мельче и в конце двухсловные варианты. Даже алгоритм не соображу какой. Ну и на чем делать тоже вопрос. Я только Си чуть-чуть понимаю, но это явно не тот язык который нужен. Perl осваивать?
(ASCII не UTF)

NickLion · Сообщение **NickLion** » 20.02.2013 21:01

Что есть фраза? Любая последовательность слов? Perl, да, в принципе неплохо для обработки текста подходит.

Сообщение **Bizdelnick** » 20.02.2013 23:36

xserver писал(а): ↑
20.02.2013 19:22
Нужно распарсить текст книги, выделив все повторяющиеся фразы из 2х и более слов и + подсчитать количество вхождений этих фраз.

Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.

Как инструмент - да, Perl. Осилить 5 главу кемел-бука будет достаточно.

xserver · Сообщение **xserver** » 21.02.2013 09:13

Что есть фраза? Любая последовательность слов?

Да любая последовательность слов повторяющаяся в книге 2 и больше раз.

Прикиньте для начала количество фраз, которые надо будет проверить. Если у Вас, скажем, маленький текстик из 20 предложений по 10 слов, это даёт уже 800 фраз для поиска. Обработка целой книги может занять нехилое время.

Одна большая книга это самый минимум, лучше 10-20 обработать. Нужно выделить "устойчивые выражения". Может имеет смысл ограничить сверху количество слов в искомых фразах скажем максимум 5-6.

Осилить 5 главу кемел-бука будет достаточно.

Читаю, просветляюсь.

unixforum.org

Выделение фраз из текста.

Выделение фраз из текста.

Re: Выделение фраз из текста.

Re: Выделение фраз из текста.

Re: Выделение фраз из текста.