[Moscow.pm] Поиск одинаковых текстов по смыслу

Grigory V.Sapunov grigory.sapunov на gmail.com
Ср Сен 12 11:44:18 PDT 2012


2012/9/12 Михаил Монашёв <postmaster на softsearch.ru>

>
> BM25  немного  доработанная  вроде.  Сфинкс  -  это та же база данных,
> только  заточенная  под  поиск. Использовать её для выделения ключевых
> слов и потом использовать их для поиска можно. Но зачем себя к Сфинксу
> привязывать? У него много своих заморочек. Он хорошо выполняет базовые
> задачи,  а  чуть  в  стороны  -  начинаются  разные ограничения. Автор
> Сфинкса готов их даже преодолевать, если у Вас есть для этого деньги.
>
>
Для выделения ключевых слов её использовать не надо, а вот для поиска
похожих текстов по уже выделенным словам можно было бы. Как достаточно
быстрое решение, думаю, это годится. Незачем в этом месте писать свою
работу с индексом. Но если дальше алгоритм планируется увести за пределы
использования ключевых слов, то да, нужно нечто большее.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120912/868b442d/attachment.html>


Подробная информация о списке рассылки Moscow-pm