[Moscow.pm] Распознавание сгенерённого текста
Михаил Монашёв
postmaster на softsearch.ru
Сб Июл 18 13:57:04 PDT 2009
Здравствуйте, Юрий.
А где можно взять текст без спама для получения исходной базы частот
пар или троек?
Да и вообще текст без спама весьма полезен для экспериментов...
P.S.
Я тут научился большинство спама выявлять по тому, что он обычно резко
начинает и/или резко прекращается. После этого нашёл кучу ссылок на не
удалённый спам на народе, который лежит там похоже ещё с 2007-8 годов.
А вот ручной и редкий единичный спам весьма сложно автоматом
находить...
YZ> Если кратко, то идея в следующем: берем пары (тройки, etc)
YZ> соседних слов в предложении и считаем статистику, как часто
YZ> появляются такие сочетания в нормальных (не сгенерированных)
YZ> текстах. Затем берем текст, который мы хотим проверить и считаем
YZ> число аномалий (очень редких словосочетаний), которые там
YZ> встретились, на основе чего решаем, сгенерирован он или нет.
YZ>
YZ> Ну, потом прикручиваем обучение с подкреплением (или что-нибудь
YZ> еще в том же духе), учет пунктуации и еще что в голову взбредет.
YZ>
YZ> PROFIT!
--
С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.
Подробная информация о списке рассылки Moscow-pm