Ну да, в первом приближении сработает, а на определённом этапе развития упрётесь в потолок, и дальше нужны будут лингвистические методы. В целом будет хорошая точность (за вычетом разных новостей с шаблонными фразами от одного источника) и низкая полнота (хорошо определяется копипаст, но не более творческий подход к освещению новостей).<div>


<br></div><div>В общем, конечно, зависит от задачи. Для каких-то применений вполне хватит, а чтобы сделать полноценный агрегатор — нет :)</div><div><br></div><div>Да, ничего готового не видел.<br><br><div class="gmail_quote">


2012/9/11 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Здравствуйте, Анатолий.<br>

<div class="im"><br>

> Есть два или более текстов, нужно узнать одинаковые (похожие) ли эти<br>

> тексты по смыслу.<br>

> Например,  есть  три новости, нужно понять, про одно и то же они или<br>

> разные?<br>

<br>

</div>Самый примитивный аглоритм такой.<br>

Качаешь  где-нить новостей побольше, разбиваешь всё на слова, удаляешь<br>

у  них окончания, делаешь из соседних слов шинглы, генеришь таблицу из<br>

двух столбцов (шингл_id,новость_id), удаляешь из неё те, которые имеют<br>

популярные  шинглы  (границу  популярности  определяй  сам),  далее по<br>

новости  можешь  искать другие новости, у которых такие же шинглы. Чем<br>

больше шинглов совпало, тем более похожая новость.<br>

<br>

Далее  можно  алгоритм  развивать...<br>

<span class="HOEnZb"><font color="#888888"><br>

--<br>

С уважением,<br>

 Михаил                          mailto:<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a><br>

</font></span><div class="HOEnZb"><div class="h5"><br>

--<br>

Moscow.pm mailing list<br>

<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>

</div></div></blockquote></div><br></div>