[Moscow.pm] Поиск одинаковых текстов по смыслу

Михаил Монашёв postmaster на softsearch.ru
Вт Сен 11 09:22:49 PDT 2012


Здравствуйте, Анатолий.

> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти
> тексты по смыслу.
> Например,  есть  три новости, нужно понять, про одно и то же они или
> разные?

Самый примитивный аглоритм такой.
Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь
у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
популярные  шинглы  (границу  популярности  определяй  сам),  далее по
новости  можешь  искать другие новости, у которых такие же шинглы. Чем
больше шинглов совпало, тем более похожая новость.

Далее  можно  алгоритм  развивать...

-- 
С уважением,
 Михаил                          mailto:postmaster на softsearch.ru



Подробная информация о списке рассылки Moscow-pm