Ну да, в первом приближении сработает, а на определённом этапе развития упрётесь в потолок, и дальше нужны будут лингвистические методы. В целом будет хорошая точность (за вычетом разных новостей с шаблонными фразами от одного источника) и низкая полнота (хорошо определяется копипаст, но не более творческий подход к освещению новостей).<div>

<br></div><div>В общем, конечно, зависит от задачи. Для каких-то применений вполне хватит, а чтобы сделать полноценный агрегатор — нет :)</div><div><br></div><div>Да, ничего готового не видел.<br><br><div class="gmail_quote">

2012/9/11 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Здравствуйте, Анатолий.<br>
<div class="im"><br>
> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти<br>
> тексты по смыслу.<br>
> Например,  есть  три новости, нужно понять, про одно и то же они или<br>
> разные?<br>
<br>
</div>Самый примитивный аглоритм такой.<br>
Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь<br>
у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из<br>
двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют<br>
популярные  шинглы  (границу  популярности  определяй  сам),  далее по<br>
новости  можешь  искать другие новости, у которых такие же шинглы. Чем<br>
больше шинглов совпало, тем более похожая новость.<br>
<br>
Далее  можно  алгоритм  развивать...<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
С уважением,<br>
 Михаил                          mailto:<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a><br>
</font></span><div class="HOEnZb"><div class="h5"><br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div></div></blockquote></div><br></div>