[Moscow.pm] Поиск одинаковых текстов по смыслу

Михаил Монашёв postmaster на softsearch.ru
Вт Сен 11 12:23:53 PDT 2012


Здравствуйте.

> Самый примитивный аглоритм такой.
> Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь
> у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
> двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
> популярные  шинглы  (границу  популярности  определяй  сам),  далее по
> новости  можешь  искать другие новости, у которых такие же шинглы. Чем
> больше шинглов совпало, тем более похожая новость.

Вдогонку...

Шинглы  здесь  не  нужны.  Если  их  использовать,  то  будут вылезать
дубликаты  текстов  вместо  схожих  по  смыслу.  Вместо  шинглов  надо
использовать  просто  слова  без  окончаний. А уже в следующих версиях
алгоритма  вместо слов выдавать признаки текста: имена собственные, их
же с действиями(глаголами), шинглы от цитируемых текстов и т.п.

-- 
С уважением,
 Михаил                          mailto:postmaster на softsearch.ru



Подробная информация о списке рассылки Moscow-pm