[Moscow.pm] Распознавание сгенерённого текста

Yury Zavarin yury.zavarin на gmail.com
Ср Июл 8 14:39:34 PDT 2009


2009/7/9 Михаил Монашёв <postmaster на softsearch.ru>

> Здравствуйте.
>
> Скажите пожалуйста, есть ли алгоритмы для определения сгенерённый
> текст или написанный человеком? Я знаю, что поисковики умеют это
> определять...


Если кратко, то идея в следующем: берем пары (тройки, etc) соседних слов в
предложении и считаем статистику, как часто появляются такие сочетания в
нормальных (не сгенерированных) текстах. Затем берем текст, который мы хотим
проверить и считаем число аномалий (очень редких словосочетаний), которые
там встретились, на основе чего решаем, сгенерирован он или нет.

Ну, потом прикручиваем обучение с подкреплением (или что-нибудь еще в том же
духе), учет пунктуации и еще что в голову взбредет.

PROFIT!


>
>
> --
>
> С уважением,
> Михаил Монашёв, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20090709/ec7a93c0/attachment.html>


Подробная информация о списке рассылки Moscow-pm