[Moscow.pm] Поиск одинаковых текстов по смыслу
Grigory V.Sapunov
grigory.sapunov на gmail.com
Ср Сен 12 11:44:18 PDT 2012
2012/9/12 Михаил Монашёв <postmaster на softsearch.ru>
>
> BM25 немного доработанная вроде. Сфинкс - это та же база данных,
> только заточенная под поиск. Использовать её для выделения ключевых
> слов и потом использовать их для поиска можно. Но зачем себя к Сфинксу
> привязывать? У него много своих заморочек. Он хорошо выполняет базовые
> задачи, а чуть в стороны - начинаются разные ограничения. Автор
> Сфинкса готов их даже преодолевать, если у Вас есть для этого деньги.
>
>
Для выделения ключевых слов её использовать не надо, а вот для поиска
похожих текстов по уже выделенным словам можно было бы. Как достаточно
быстрое решение, думаю, это годится. Незачем в этом месте писать свою
работу с индексом. Но если дальше алгоритм планируется увести за пределы
использования ключевых слов, то да, нужно нечто большее.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120912/868b442d/attachment.html>
Подробная информация о списке рассылки Moscow-pm