<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
02.02.10 19:27, Alex Kapranoff написав(ла):
<blockquote
 cite="mid:d020f8bb1002020827k71a355a7i2906c694056bd87@mail.gmail.com"
 type="cite">
  <div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr">&lt;<a
 moz-do-not-send="true" href="mailto:andrey@kostenko.name">andrey@kostenko.name</a>&gt;</span><br>
  <blockquote class="gmail_quote"
 style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    <div bgcolor="#ffffff" text="#000000">02.02.10 18:06, Alex
Kapranoff написав(ла):
    <div>
    <div class="h5">
    <blockquote type="cite">
      <div>Касание -- не препятствие, потому что оно не препятствует
сегментации картинки на буквы :) Не уверен, что знаю, какие там
алгоритмы, но скорее всего картинка строчки текста разбивается на
вертикальные блоки в разных местах, а потом выбирается самое интересное
разбиение.</div>
      <div><br>
      </div>
      <div>В аттаче пример, который напрочь убивает распознавание
тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску
поверх букв.</div>
      <br clear="all">
-- <br>
Alex Kapranoff.<br>
      <br>
      <br>
      <div class="gmail_quote">2010/1/23 Михаил Монашёв <span dir="ltr">&lt;<a
 moz-do-not-send="true" href="mailto:postmaster@softsearch.ru"
 target="_blank">postmaster@softsearch.ru</a>&gt;</span><br>
      <blockquote class="gmail_quote"
 style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Здравствуйте,
Александр.<br>
        <br>
хммм. выходит, что касание букв - это не препятствие для распознавания,<br>
как писалось ранее...<br>
        <br>
AS&gt; четвёртый символ, конечно, не распознан, но это за 10 минут:<br>
AS&gt; --copy<br>
AS&gt; cyga@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif<br>
AS&gt; cyga@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif<br>
AS&gt; cyga@host:~/dev/capthca$ tesseract 2.tif 2.tif<br>
AS&gt; Tesseract Open Source OCR Engine<br>
AS&gt; cyga@abergman:~/dev/capthca$ cat 2.tif.txt<br>
AS&gt; YZHI<br>
AS&gt; --cut<br>
AS&gt; и без какого-либо "хитрого" подхода.<br>
        <div>
        <div><br>
&gt;&gt; Вот такие капчи генерятся. Какое Ваше мнение, сложно они
автоматом<br>
&gt;&gt; распознаются?<br>
        <br>
        <br>
        <br>
--<br>
        <br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a moz-do-not-send="true" href="mailto:postmaster@softsearch.ru"
 target="_blank">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
        <a moz-do-not-send="true" href="http://michael.mindmix.ru/"
 target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
        <br>
--<br>
Moscow.pm mailing list<br>
        <a moz-do-not-send="true" href="mailto:moscow-pm@pm.org"
 target="_blank">moscow-pm@pm.org</a>
| <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
        </div>
        </div>
      </blockquote>
      </div>
      <br>
      <pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a moz-do-not-send="true" href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a
 moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
  </pre>
    </blockquote>
    </div>
    </div>
Как правило основной алгоритм:<br>
    <br>
    <tt>use India;<br>
my $india = India-&gt;new<br>
my $man = $india-&gt;get_cheap_man;<br>
$man-&gt;pay("$0.0001");<br>
my $captcha = $man-&gt;process(
'<a moz-do-not-send="true"
 href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg"
 target="_blank">http://id.c</a><font class="Apple-style-span"
 color="#551a8b"><u>--</u></font></tt></div>
    <div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span"
 color="#551a8b" face="monospace"><u>Moscow.pm mailing list</u></font></div>
    <div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span"
 color="#551a8b" face="monospace"><u><a moz-do-not-send="true"
 href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a
 moz-do-not-send="true" href="http://moscow.pm.org">http://moscow.pm.org</a></u></font></div>
    <div bgcolor="#ffffff" text="#000000"><br>
    </div>
    <div bgcolor="#ffffff" text="#000000"><tt><a moz-do-not-send="true"
 href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg"
 target="_blank">aptcha.rambler.ru/</a><font class="Apple-style-span"
 color="#0000ee"><u>--</u></font></tt></div>
    <div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span"
 color="#0000ee" face="monospace"><u>Moscow.pm mailing list</u></font></div>
    <div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span"
 color="#0000ee" face="monospace"><u><a moz-do-not-send="true"
 href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a
 moz-do-not-send="true" href="http://moscow.pm.org">http://moscow.pm.org</a></u></font></div>
    <div bgcolor="#ffffff" text="#000000"><br>
    </div>
    <div bgcolor="#ffffff" text="#000000"><tt><a moz-do-not-send="true"
 href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg"
 target="_blank">641aa883fc83131c590a6c5f9e63aa4c.jpg</a>');</tt><br>
    <br>
    <br>
вот эту капчу натренированный индус распознает вмиг. А пользователь
себе мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в
Индии :-)<br>
    </div>
    <br>
  </blockquote>
  <div><br>
  </div>
  <div>Я имел в виду алгоритмы в Тессеракте.</div>
  <div><br>
  </div>
  <div>А индусы в мишином случае на раз отсекаются кириллическими
буквами.</div>
  <div><br>
  </div>
  <div>Текущая рамблеровская капча является плохим примером, так как
разработчики упростили её распознавание использованием нескольких
цветов, а также убиранием антисегментирующего мусора. В аттаче пример
старой капчи. Она распознаётся сильно хуже, а читается либо так же,
либо лучше.</div>
  </div>
  <pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
--
Moscow.pm mailing list
<a class="moz-txt-link-abbreviated" href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a class="moz-txt-link-freetext" href="http://moscow.pm.org">http://moscow.pm.org</a>
  </pre>
</blockquote>
Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые
буквы :-)<br>
PS: эффект был временным. Все текущие спам-боты тогда сломались :-)<br>
</body>
</html>