[Moscow.pm] Корпус слов

Михаил Монашёв postmaster на softsearch.ru
Сб Янв 24 13:15:25 PST 2009


Здравствуйте, Юрий.

Большое спасибо за письмо и ссылки. Они оказались весьма полезными.

YZ>> Мне видится, что можно как-то посчитать близость текста и корпуса
YZ>> слов. Вот только как правильно это сделать?
YZ> 
YZ> А  зачем  это  делать? Чтобы узнать, принадлежит ли текст тому или
YZ> иному языку? Ну, если в этом корпусе действительно только слова, а
YZ> не  тексты,  то  наверное  это имеет смысл. Думаю, что найти такие
YZ> готовые  списки  слов для основных языков не очень сложно. Но в то
YZ> же  время  кажется,  что  есть  какие-то  более удобные/интересные
YZ> алгоритмы.

Мне хотелось бы находить на своём блогхостинге ручной спам.

Бывает,  что  приходит какой-то человек, создаёт 5 блогов, выкладывает
туда  непотребные  фотки с текстами и ссылочку на такой же непотребный
сайт. Хотелось бы находить такое и давать модераторам на рассмотрение.

--

С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.



Подробная информация о списке рассылки Moscow-pm