[Moscow.pm] Анализ русскоязычных текстов
Andrew Shitov
andy на shitov.ru
Пт Окт 30 02:07:08 PDT 2009
> На входе подаются слова "красный" "краснота" и "покраснеть" а на
> выходе должны получить одно и тоже, благодаря чему можно их
> сгруппировать по смыслу. (Еще пример: "пообедать", "обедать",
> "обеденный")
Простой алгоритм можно сделать, если от слова отбросить окончание,
суффикс и приставку.
Берем "пообедать". Словоформы: пообедав, пообедаем, пообедает,
пообедаете, пообедаешь, пообедай, пообедайте, пообедал, пообедала,
пообедали, пообедало, пообедаю, пообедают. Из словоформ выделяем общую
часть "пообеда". Убираем приставку "по" (должен быть набор известных),
остается "обеда".
Если проделать с "обедать", то окончание исчезает тем же способом, а
приставки нет, опять остается "обеда".
Но вообще лучше так не делать :-)
--
Andrew Shitov
______________________________________________________________________
andy на shitov.ru | http://shitov.ru
Подробная информация о списке рассылки Moscow-pm