[Moscow.pm] Корпус слов
Михаил Монашёв
postmaster на softsearch.ru
Сб Янв 24 13:15:25 PST 2009
Здравствуйте, Юрий.
Большое спасибо за письмо и ссылки. Они оказались весьма полезными.
YZ>> Мне видится, что можно как-то посчитать близость текста и корпуса
YZ>> слов. Вот только как правильно это сделать?
YZ>
YZ> А зачем это делать? Чтобы узнать, принадлежит ли текст тому или
YZ> иному языку? Ну, если в этом корпусе действительно только слова, а
YZ> не тексты, то наверное это имеет смысл. Думаю, что найти такие
YZ> готовые списки слов для основных языков не очень сложно. Но в то
YZ> же время кажется, что есть какие-то более удобные/интересные
YZ> алгоритмы.
Мне хотелось бы находить на своём блогхостинге ручной спам.
Бывает, что приходит какой-то человек, создаёт 5 блогов, выкладывает
туда непотребные фотки с текстами и ссылочку на такой же непотребный
сайт. Хотелось бы находить такое и давать модераторам на рассмотрение.
--
С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.
Подробная информация о списке рассылки Moscow-pm