[Moscow.pm] Поиск одинаковых текстов по смыслу
Grigory V.Sapunov
grigory.sapunov на gmail.com
Ср Сен 12 09:51:01 PDT 2012
Думаю, вполне возможно сделать это средствами сфинкса -- нужно "лишь"
научиться выделять ключевые слова для произвольного текста, а потом
задавать в поиск запросы из этих слов.
Не знаю, как у сфинкса устроена формула релевантности и есть ли там
какой-то аналог нестрогого поиска или возможность хоть как-то задавать
словам веса, но если есть, то это облегчает решение.
2012/9/12 Анатолий Шарифулин <sharifulin на gmail.com>
> Не понял, если не нужны, тогда просто по словам.
> Я так и начал делать :)
>
> Ещё хочется это сделать средствами sphinx, но пока в поиске решения.
>
>
> 2012/9/11 Михаил Монашёв <postmaster на softsearch.ru>
>
>> Здравствуйте.
>>
>> > Самый примитивный аглоритм такой.
>> > Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь
>> > у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из
>> > двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют
>> > популярные шинглы (границу популярности определяй сам), далее по
>> > новости можешь искать другие новости, у которых такие же шинглы. Чем
>> > больше шинглов совпало, тем более похожая новость.
>>
>> Вдогонку...
>>
>> Шинглы здесь не нужны. Если их использовать, то будут вылезать
>> дубликаты текстов вместо схожих по смыслу. Вместо шинглов надо
>> использовать просто слова без окончаний. А уже в следующих версиях
>> алгоритма вместо слов выдавать признаки текста: имена собственные, их
>> же с действиями(глаголами), шинглы от цитируемых текстов и т.п.
>>
>> --
>> С уважением,
>> Михаил mailto:postmaster на softsearch.ru
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>
>
>
> --
> С уважением,
> Анатолий Шарифулин.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120912/c80e30de/attachment.html>
Подробная информация о списке рассылки Moscow-pm