<br><br><div class="gmail_quote">2012/9/12 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div id=":hg">Я  сейчас  примерно ту же задачу решаю. Пока какая-то муть получается.<br>
Наверное  всё  таки  надо из текста какие-то объекты выделять. Хотя бы<br>
имена собственные для начала.<br>
<br>
А у тебя только по словам получается?</div></blockquote></div><br><br clear="all"><div>Пока в процессе, сейчас делаю просто: выделяю слова без окончаний, фильтрую (потом можно и стоп-слова добавить), считаю кол-во повторений, сортирую и делаю строку типа "шинглов" — топ 10 слов через пробел.</div>
<div><br></div><div>Далее сравниваю такие строки по новостям и считаю "рейтинг похожести" статьи.</div><div><br></div>-- <br>С уважением,<br> Анатолий Шарифулин.<br>