[Moscow.pm] Поиск одинаковых текстов по смыслу
Анатолий Шарифулин
sharifulin на gmail.com
Чт Сен 13 02:38:34 PDT 2012
2012/9/12 Михаил Монашёв <postmaster на softsearch.ru>
> Я сейчас примерно ту же задачу решаю. Пока какая-то муть получается.
> Наверное всё таки надо из текста какие-то объекты выделять. Хотя бы
> имена собственные для начала.
>
> А у тебя только по словам получается?
>
Пока в процессе, сейчас делаю просто: выделяю слова без окончаний, фильтрую
(потом можно и стоп-слова добавить), считаю кол-во повторений, сортирую и
делаю строку типа "шинглов" -- топ 10 слов через пробел.
Далее сравниваю такие строки по новостям и считаю "рейтинг похожести"
статьи.
--
С уважением,
Анатолий Шарифулин.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120913/5b845e03/attachment.html>
Подробная информация о списке рассылки Moscow-pm