[Moscow.pm] Поиск одинаковых текстов по смыслу
Анатолий Шарифулин
sharifulin на gmail.com
Ср Сен 12 04:25:56 PDT 2012
Не понял, если не нужны, тогда просто по словам.
Я так и начал делать :)
Ещё хочется это сделать средствами sphinx, но пока в поиске решения.
2012/9/11 Михаил Монашёв <postmaster на softsearch.ru>
> Здравствуйте.
>
> > Самый примитивный аглоритм такой.
> > Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь
> > у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
> > двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
> > популярные шинглы (границу популярности определяй сам), далее по
> > новости можешь искать другие новости, у которых такие же шинглы. Чем
> > больше шинглов совпало, тем более похожая новость.
>
> Вдогонку...
>
> Шинглы здесь не нужны. Если их использовать, то будут вылезать
> дубликаты текстов вместо схожих по смыслу. Вместо шинглов надо
> использовать просто слова без окончаний. А уже в следующих версиях
> алгоритма вместо слов выдавать признаки текста: имена собственные, их
> же с действиями(глаголами), шинглы от цитируемых текстов и т.п.
>
> --
> С уважением,
> Михаил mailto:postmaster на softsearch.ru
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
--
С уважением,
Анатолий Шарифулин.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120912/79d6e536/attachment.html>
Подробная информация о списке рассылки Moscow-pm