[Moscow.pm] Распознавание сгенерённого текста

xames xamess на gmail.com
Чт Июл 9 00:56:57 PDT 2009


А цепи маркова?
Если текст строить на основе таких цепей, то вероятности для слов
(пар, троек, ...) не будут аномальными + пунктуация будет очень
реалистична. Как же в таком случае определить?

9 июля 2009 г. 1:39 пользователь Yury Zavarin (yury.zavarin на gmail.com) написал:
>
>
> 2009/7/9 Михаил Монашёв <postmaster на softsearch.ru>
>>
>> Здравствуйте.
>>
>> Скажите пожалуйста, есть ли алгоритмы для определения сгенерённый
>> текст или написанный человеком? Я знаю, что поисковики умеют это
>> определять...
>
> Если кратко, то идея в следующем: берем пары (тройки, etc) соседних слов в
> предложении и считаем статистику, как часто появляются такие сочетания в
> нормальных (не сгенерированных) текстах. Затем берем текст, который мы хотим
> проверить и считаем число аномалий (очень редких словосочетаний), которые
> там встретились, на основе чего решаем, сгенерирован он или нет.
>
> Ну, потом прикручиваем обучение с подкреплением (или что-нибудь еще в том же
> духе), учет пунктуации и еще что в голову взбредет.
>
> PROFIT!
>
>>
>> --
>>
>> С уважением,
>> Михаил Монашёв, SoftSearch.ru
>> mailto:postmaster на softsearch.ru
>> ICQ# 166233339
>> http://michael.mindmix.ru/
>> Без бэкапа по жизни.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>


Подробная информация о списке рассылки Moscow-pm