[Moscow.pm] Распознавание сгенерённого текста

Чт Июл 9 02:38:15 PDT 2009

Здравствуйте, xames.

Если при генерации текста по цепям Маркова учитывать частоты пар и
троек, то видимо предложенный алгоритм не работает. Если не учитывать,
то работает.

x> А цепи маркова?
x> Если текст строить на основе таких цепей, то вероятности для слов
x> (пар, троек, ...) не будут аномальными + пунктуация будет очень
x> реалистична. Как же в таком случае определить?

>>> Скажите пожалуйста, есть ли алгоритмы для определения сгенерённый
>>> текст или написанный человеком? Я знаю, что поисковики умеют это
>>> определять...
>>
>> Если кратко, то идея в следующем: берем пары (тройки, etc) соседних слов в
>> предложении и считаем статистику, как часто появляются такие сочетания в
>> нормальных (не сгенерированных) текстах. Затем берем текст, который мы хотим
>> проверить и считаем число аномалий (очень редких словосочетаний), которые
>> там встретились, на основе чего решаем, сгенерирован он или нет.
>>
>> Ну, потом прикручиваем обучение с подкреплением (или что-нибудь еще в том же
>> духе), учет пунктуации и еще что в голову взбредет.
>>
>> PROFIT!

--

С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.