[Moscow.pm] Поиск одинаковых текстов по смыслу

Анатолий Шарифулин sharifulin на gmail.com
Чт Сен 13 02:38:34 PDT 2012


2012/9/12 Михаил Монашёв <postmaster на softsearch.ru>

> Я  сейчас  примерно ту же задачу решаю. Пока какая-то муть получается.
> Наверное  всё  таки  надо из текста какие-то объекты выделять. Хотя бы
> имена собственные для начала.
>
> А у тебя только по словам получается?
>


Пока в процессе, сейчас делаю просто: выделяю слова без окончаний, фильтрую
(потом можно и стоп-слова добавить), считаю кол-во повторений, сортирую и
делаю строку типа "шинглов" -- топ 10 слов через пробел.

Далее сравниваю такие строки по новостям и считаю "рейтинг похожести"
статьи.

-- 
С уважением,
 Анатолий Шарифулин.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120913/5b845e03/attachment.html>


Подробная информация о списке рассылки Moscow-pm