Думаю, вполне возможно сделать это средствами сфинкса — нужно "лишь" научиться выделять ключевые слова для произвольного текста, а потом задавать в поиск запросы из этих слов. <div><br></div><div>Не знаю, как у сфинкса устроена формула релевантности и есть ли там какой-то аналог нестрогого поиска или возможность хоть как-то задавать словам веса, но если есть, то это облегчает решение.<br>

<br><div class="gmail_quote">2012/9/12 Анатолий Шарифулин <span dir="ltr"><<a href="mailto:sharifulin@gmail.com" target="_blank">sharifulin@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Не понял, если не нужны, тогда просто по словам.<div>Я так и начал делать :)</div><div><br></div><div>Ещё хочется это сделать средствами sphinx, но пока в поиске решения.<div><div class="h5"><br><br><div class="gmail_quote">

2012/9/11 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Здравствуйте.<br>
<div><br>
> Самый примитивный аглоритм такой.<br>
> Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь<br>
> у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из<br>
> двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют<br>
> популярные  шинглы  (границу  популярности  определяй  сам),  далее по<br>
> новости  можешь  искать другие новости, у которых такие же шинглы. Чем<br>
> больше шинглов совпало, тем более похожая новость.<br>
<br>
</div>Вдогонку...<br>
<br>
Шинглы  здесь  не  нужны.  Если  их  использовать,  то  будут вылезать<br>
дубликаты  текстов  вместо  схожих  по  смыслу.  Вместо  шинглов  надо<br>
использовать  просто  слова  без  окончаний. А уже в следующих версиях<br>
алгоритма  вместо слов выдавать признаки текста: имена собственные, их<br>
же с действиями(глаголами), шинглы от цитируемых текстов и т.п.<br>
<div><div><br>
--<br>
С уважением,<br>
 Михаил                          mailto:<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a><br>
<br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div></div></div><div class="im">-- <br>С уважением,<br> Анатолий Шарифулин.<br>
</div></div>
<br>--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br></blockquote></div><br></div>