[Moscow.pm] Поиск одинаковых текстов по смыслу
Михаил Монашёв
postmaster на softsearch.ru
Вт Сен 11 09:22:49 PDT 2012
Здравствуйте, Анатолий.
> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти
> тексты по смыслу.
> Например, есть три новости, нужно понять, про одно и то же они или
> разные?
Самый примитивный аглоритм такой.
Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь
у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
популярные шинглы (границу популярности определяй сам), далее по
новости можешь искать другие новости, у которых такие же шинглы. Чем
больше шинглов совпало, тем более похожая новость.
Далее можно алгоритм развивать...
--
С уважением,
Михаил mailto:postmaster на softsearch.ru
Подробная информация о списке рассылки Moscow-pm