[Moscow.pm] Поиск одинаковых текстов по смыслу

Grigory V.Sapunov grigory.sapunov на gmail.com
Вт Сен 11 11:59:31 PDT 2012


Ну да, в первом приближении сработает, а на определённом этапе развития
упрётесь в потолок, и дальше нужны будут лингвистические методы. В целом
будет хорошая точность (за вычетом разных новостей с шаблонными фразами от
одного источника) и низкая полнота (хорошо определяется копипаст, но не
более творческий подход к освещению новостей).

В общем, конечно, зависит от задачи. Для каких-то применений вполне хватит,
а чтобы сделать полноценный агрегатор -- нет :)

Да, ничего готового не видел.

2012/9/11 Михаил Монашёв <postmaster на softsearch.ru>

> Здравствуйте, Анатолий.
>
> > Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти
> > тексты по смыслу.
> > Например,  есть  три новости, нужно понять, про одно и то же они или
> > разные?
>
> Самый примитивный аглоритм такой.
> Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь
> у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
> двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
> популярные  шинглы  (границу  популярности  определяй  сам),  далее по
> новости  можешь  искать другие новости, у которых такие же шинглы. Чем
> больше шинглов совпало, тем более похожая новость.
>
> Далее  можно  алгоритм  развивать...
>
> --
> С уважением,
>  Михаил                          mailto:postmaster на softsearch.ru
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120911/867276cd/attachment-0001.html>


Подробная информация о списке рассылки Moscow-pm