[Moscow.pm] Распознавание сгенерённого текста

Сб Июл 18 13:57:04 PDT 2009

Здравствуйте, Юрий.

А  где  можно взять текст без спама для получения исходной базы частот
пар или троек?

Да и вообще текст без спама весьма полезен для экспериментов...

P.S.
Я тут научился большинство спама выявлять по тому, что он обычно резко
начинает и/или резко прекращается. После этого нашёл кучу ссылок на не
удалённый спам на народе, который лежит там похоже ещё с 2007-8 годов.
А   вот  ручной  и  редкий  единичный  спам  весьма  сложно  автоматом
находить...

YZ> Если  кратко,  то  идея  в  следующем:  берем  пары  (тройки, etc)
YZ> соседних  слов  в  предложении  и  считаем  статистику,  как часто
YZ> появляются  такие  сочетания  в  нормальных  (не  сгенерированных)
YZ> текстах.  Затем  берем текст, который мы хотим проверить и считаем
YZ> число   аномалий   (очень   редких  словосочетаний),  которые  там
YZ> встретились, на основе чего решаем, сгенерирован он или нет.
YZ> 
YZ> Ну,  потом  прикручиваем  обучение с подкреплением (или что-нибудь
YZ> еще в том же духе), учет пунктуации и еще что в голову взбредет.
YZ> 
YZ> PROFIT!

--

С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.