[Moscow.pm] Анализ русскоязычных текстов

Andrew Shitov andy на shitov.ru
Пт Окт 30 02:07:08 PDT 2009


> На входе подаются слова "красный" "краснота" и "покраснеть" а на
> выходе должны получить одно и тоже, благодаря чему можно их
> сгруппировать по смыслу. (Еще пример: "пообедать", "обедать",
> "обеденный")

Простой алгоритм можно сделать, если от слова отбросить окончание,
суффикс и приставку.

Берем "пообедать". Словоформы: пообедав, пообедаем, пообедает,
пообедаете, пообедаешь, пообедай, пообедайте, пообедал, пообедала,
пообедали, пообедало, пообедаю, пообедают. Из словоформ выделяем общую
часть "пообеда". Убираем приставку "по" (должен быть набор известных),
остается "обеда".

Если проделать с "обедать", то окончание исчезает тем же способом, а
приставки нет, опять остается "обеда".

Но вообще лучше так не делать :-)

-- 
Andrew Shitov
______________________________________________________________________
andy на shitov.ru | http://shitov.ru


Подробная информация о списке рассылки Moscow-pm