<div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr">&lt;<a href="mailto:andrey@kostenko.name">andrey@kostenko.name</a>&gt;</span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">




  

<div bgcolor="#ffffff" text="#000000">
02.02.10 19:27, Alex Kapranoff написав(ла):
<div><div></div><div class="h5"><blockquote type="cite">
  <div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr">&lt;<a href="mailto:andrey@kostenko.name" target="_blank">andrey@kostenko.name</a>&gt;</span><br>
  <blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
    <div bgcolor="#ffffff" text="#000000">02.02.10 18:06, Alex
Kapranoff написав(ла):
    <div>
    <div>
    <blockquote type="cite">
      <div>Касание -- не препятствие, потому что оно не препятствует
сегментации картинки на буквы :) Не уверен, что знаю, какие там
алгоритмы, но скорее всего картинка строчки текста разбивается на
вертикальные блоки в разных местах, а потом выбирается самое интересное
разбиение.</div>
      <div><br>
      </div>
      <div>В аттаче пример, который напрочь убивает распознавание
тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску
поверх букв.</div>
      <br clear="all">
-- <br>
Alex Kapranoff.<br>
      <br>
      <br>
      <div class="gmail_quote">2010/1/23 Михаил Монашёв <span dir="ltr">&lt;<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>&gt;</span><br>
      <blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Здравствуйте,
Александр.<br>
        <br>
хммм. выходит, что касание букв - это не препятствие для распознавания,<br>
как писалось ранее...<br>
        <br>
AS&gt; четвёртый символ, конечно, не распознан, но это за 10 минут:<br>
AS&gt; --copy<br>
AS&gt; cyga@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif<br>
AS&gt; cyga@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif<br>
AS&gt; cyga@host:~/dev/capthca$ tesseract 2.tif 2.tif<br>
AS&gt; Tesseract Open Source OCR Engine<br>
AS&gt; cyga@abergman:~/dev/capthca$ cat 2.tif.txt<br>
AS&gt; YZHI<br>
AS&gt; --cut<br>
AS&gt; и без какого-либо &quot;хитрого&quot; подхода.<br>
        <div>
        <div><br>
&gt;&gt; Вот такие капчи генерятся. Какое Ваше мнение, сложно они
автоматом<br>
&gt;&gt; распознаются?<br>
        <br>
        <br>
        <br>
--<br>
        <br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
        <a href="http://michael.mindmix.ru/" target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
        <br>
--<br>
Moscow.pm mailing list<br>
        <a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a>
| <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
        </div>
        </div>
      </blockquote>
      </div>
      <br>
      <pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
  </pre>
    </blockquote>
    </div>
    </div>
Как правило основной алгоритм:<br>
    <br>
    <tt>use India;<br>
my $india = India-&gt;new<br>
my $man = $india-&gt;get_cheap_man;<br>
$man-&gt;pay(&quot;$0.0001&quot;);<br>
my $captcha = $man-&gt;process(
&#39;<a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">http://id.c</a><font color="#551a8b"><u>--</u></font></tt></div>
    <div bgcolor="#ffffff" text="#000000"><font color="#551a8b" face="monospace"><u>Moscow.pm mailing list</u></font></div>
    <div bgcolor="#ffffff" text="#000000"><font color="#551a8b" face="monospace"><u><a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a></u></font></div>


    <div bgcolor="#ffffff" text="#000000"><br>
    </div>
    <div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">aptcha.rambler.ru/</a><font color="#0000ee"><u>--</u></font></tt></div>
    <div bgcolor="#ffffff" text="#000000"><font color="#0000ee" face="monospace"><u>Moscow.pm mailing list</u></font></div>
    <div bgcolor="#ffffff" text="#000000"><font color="#0000ee" face="monospace"><u><a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a></u></font></div>


    <div bgcolor="#ffffff" text="#000000"><br>
    </div>
    <div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">641aa883fc83131c590a6c5f9e63aa4c.jpg</a>&#39;);</tt><br>
    <br>
    <br>
вот эту капчу натренированный индус распознает вмиг. А пользователь
себе мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в
Индии :-)<br>
    </div>
    <br>
  </blockquote>
  <div><br>
  </div>
  <div>Я имел в виду алгоритмы в Тессеракте.</div>
  <div><br>
  </div>
  <div>А индусы в мишином случае на раз отсекаются кириллическими
буквами.</div>
  <div><br>
  </div>
  <div>Текущая рамблеровская капча является плохим примером, так как
разработчики упростили её распознавание использованием нескольких
цветов, а также убиранием антисегментирующего мусора. В аттаче пример
старой капчи. Она распознаётся сильно хуже, а читается либо так же,
либо лучше.</div>
  </div>
  <pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
  </pre>
</blockquote></div></div>
Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые
буквы :-)<br></div></blockquote><div><br>Умного индуса уже не устроит зарплата батарейки в матрице :)<br><br></div></div>