Думаю, вполне возможно сделать это средствами сфинкса — нужно "лишь" научиться выделять ключевые слова для произвольного текста, а потом задавать в поиск запросы из этих слов. <div><br></div><div>Не знаю, как у сфинкса устроена формула релевантности и есть ли там какой-то аналог нестрогого поиска или возможность хоть как-то задавать словам веса, но если есть, то это облегчает решение.<br>
<br><div class="gmail_quote">2012/9/12 Анатолий Шарифулин <span dir="ltr"><<a href="mailto:sharifulin@gmail.com" target="_blank">sharifulin@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Не понял, если не нужны, тогда просто по словам.<div>Я так и начал делать :)</div><div><br></div><div>Ещё хочется это сделать средствами sphinx, но пока в поиске решения.<div><div class="h5"><br><br><div class="gmail_quote">
2012/9/11 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Здравствуйте.<br>
<div><br>
> Самый примитивный аглоритм такой.<br>
> Качаешь где-нить новостей побольше, разбиваешь всё на слова, удаляешь<br>
> у них окончания, делаешь из соседних слов шинглы, генеришь таблицу из<br>
> двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют<br>
> популярные шинглы (границу популярности определяй сам), далее по<br>
> новости можешь искать другие новости, у которых такие же шинглы. Чем<br>
> больше шинглов совпало, тем более похожая новость.<br>
<br>
</div>Вдогонку...<br>
<br>
Шинглы здесь не нужны. Если их использовать, то будут вылезать<br>
дубликаты текстов вместо схожих по смыслу. Вместо шинглов надо<br>
использовать просто слова без окончаний. А уже в следующих версиях<br>
алгоритма вместо слов выдавать признаки текста: имена собственные, их<br>
же с действиями(глаголами), шинглы от цитируемых текстов и т.п.<br>
<div><div><br>
--<br>
С уважением,<br>
Михаил mailto:<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a><br>
<br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div></div></div><div class="im">-- <br>С уважением,<br> Анатолий Шарифулин.<br>
</div></div>
<br>--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br></blockquote></div><br></div>