<br><br><div class="gmail_quote">2009/7/9 Михаил Монашёв <span dir="ltr">&lt;<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Здравствуйте.<br>
<br>
Скажите пожалуйста, есть ли алгоритмы для определения сгенерённый<br>
текст или написанный человеком? Я знаю, что поисковики умеют это<br>
определять...</blockquote><div><br>Если кратко, то идея в следующем: берем пары (тройки, etc) соседних слов в предложении и считаем статистику, как часто появляются такие сочетания в нормальных (не сгенерированных) текстах. Затем берем текст, который мы хотим проверить и считаем число аномалий (очень редких словосочетаний), которые там встретились, на основе чего решаем, сгенерирован он или нет.<br>
<br>Ну, потом прикручиваем обучение с подкреплением (или что-нибудь еще в том же духе), учет пунктуации и еще что в голову взбредет.<br><br>PROFIT!<br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
--<br>
<br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
<a href="http://michael.mindmix.ru/" target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
<font color="#888888"><br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</font></blockquote></div><br>