<div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr">&lt;<a href="mailto:andrey@kostenko.name">andrey@kostenko.name</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">




  

<div bgcolor="#ffffff" text="#000000">
02.02.10 18:06, Alex Kapranoff написав(ла):
<div><div></div><div class="h5"><blockquote type="cite">
  <div>Касание -- не препятствие, потому что оно не препятствует
сегментации картинки на буквы :) Не уверен, что знаю, какие там
алгоритмы, но скорее всего картинка строчки текста разбивается на
вертикальные блоки в разных местах, а потом выбирается самое интересное
разбиение.</div>
  <div><br>
  </div>
  <div>В аттаче пример, который напрочь убивает распознавание
тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску
поверх букв.</div>
  <br clear="all">
-- <br>
Alex Kapranoff.<br>
  <br>
  <br>
  <div class="gmail_quote">2010/1/23 Михаил Монашёв <span dir="ltr">&lt;<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>&gt;</span><br>
  <blockquote class="gmail_quote" style="border-left:1px solid rgb(204, 204, 204);margin:0pt 0pt 0pt 0.8ex;padding-left:1ex">Здравствуйте,
Александр.<br>
    <br>
хммм. выходит, что касание букв - это не препятствие для распознавания,<br>
как писалось ранее...<br>
    <br>
AS&gt; четвёртый символ, конечно, не распознан, но это за 10 минут:<br>
AS&gt; --copy<br>
AS&gt; cyga@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif<br>
AS&gt; cyga@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif<br>
AS&gt; cyga@host:~/dev/capthca$ tesseract 2.tif 2.tif<br>
AS&gt; Tesseract Open Source OCR Engine<br>
AS&gt; cyga@abergman:~/dev/capthca$ cat 2.tif.txt<br>
AS&gt; YZHI<br>
AS&gt; --cut<br>
AS&gt; и без какого-либо &quot;хитрого&quot; подхода.<br>
    <div>
    <div><br>
&gt;&gt; Вот такие капчи генерятся. Какое Ваше мнение, сложно они
автоматом<br>
&gt;&gt; распознаются?<br>
    <br>
    <br>
    <br>
--<br>
    <br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
    <a href="http://michael.mindmix.ru/" target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
    <br>
--<br>
Moscow.pm mailing list<br>
    <a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a>
| <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
    </div>
    </div>
  </blockquote>
  </div>
  <br>
  <pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
  </pre>
</blockquote></div></div>
Как правило основной алгоритм:<br>
<br>
<tt>use India;<br>
my $india = India-&gt;new<br>
my $man = $india-&gt;get_cheap_man;<br>
$man-&gt;pay(&quot;$0.0001&quot;);<br>
my $captcha = $man-&gt;process(
&#39;<a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">http://id.c</a><font class="Apple-style-span" color="#551A8B"><u>--</u></font></tt></div><div bgcolor="#ffffff" text="#000000">

<font class="Apple-style-span" color="#551A8B" face="monospace"><u>Moscow.pm mailing list</u></font></div><div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span" color="#551A8B" face="monospace"><u><a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org">http://moscow.pm.org</a></u></font></div>

<div bgcolor="#ffffff" text="#000000"><br></div><div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">aptcha.rambler.ru/</a><font class="Apple-style-span" color="#0000EE"><u>--</u></font></tt></div>

<div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span" color="#0000EE" face="monospace"><u>Moscow.pm mailing list</u></font></div><div bgcolor="#ffffff" text="#000000"><font class="Apple-style-span" color="#0000EE" face="monospace"><u><a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org">http://moscow.pm.org</a></u></font></div>

<div bgcolor="#ffffff" text="#000000"><br></div><div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">641aa883fc83131c590a6c5f9e63aa4c.jpg</a>&#39;);</tt><br>


<br>
<br>
вот эту капчу натренированный индус распознает вмиг. А пользователь
себе мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в
Индии :-)<br>
</div>

<br></blockquote><div><br></div><div>Я имел в виду алгоритмы в Тессеракте.</div><div><br></div><div>А индусы в мишином случае на раз отсекаются кириллическими буквами.</div><div><br></div><div>Текущая рамблеровская капча является плохим примером, так как разработчики упростили её распознавание использованием нескольких цветов, а также убиранием антисегментирующего мусора. В аттаче пример старой капчи. Она распознаётся сильно хуже, а читается либо так же, либо лучше.</div>

</div>