<div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr"><<a href="mailto:andrey@kostenko.name">andrey@kostenko.name</a>></span><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div bgcolor="#ffffff" text="#000000">
02.02.10 19:27, Alex Kapranoff написав(ла):
<div><div></div><div class="h5"><blockquote type="cite">
<div class="gmail_quote">2010/2/2 Andrey Kostenko <span dir="ltr"><<a href="mailto:andrey@kostenko.name" target="_blank">andrey@kostenko.name</a>></span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div bgcolor="#ffffff" text="#000000">02.02.10 18:06, Alex
Kapranoff написав(ла):
<div>
<div>
<blockquote type="cite">
<div>Касание -- не препятствие, потому что оно не препятствует
сегментации картинки на буквы :) Не уверен, что знаю, какие там
алгоритмы, но скорее всего картинка строчки текста разбивается на
вертикальные блоки в разных местах, а потом выбирается самое интересное
разбиение.</div>
<div><br>
</div>
<div>В аттаче пример, который напрочь убивает распознавание
тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску
поверх букв.</div>
<br clear="all">
-- <br>
Alex Kapranoff.<br>
<br>
<br>
<div class="gmail_quote">2010/1/23 Михаил Монашёв <span dir="ltr"><<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a>></span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Здравствуйте,
Александр.<br>
<br>
хммм. выходит, что касание букв - это не препятствие для распознавания,<br>
как писалось ранее...<br>
<br>
AS> четвёртый символ, конечно, не распознан, но это за 10 минут:<br>
AS> --copy<br>
AS> cyga@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif<br>
AS> cyga@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif<br>
AS> cyga@host:~/dev/capthca$ tesseract 2.tif 2.tif<br>
AS> Tesseract Open Source OCR Engine<br>
AS> cyga@abergman:~/dev/capthca$ cat 2.tif.txt<br>
AS> YZHI<br>
AS> --cut<br>
AS> и без какого-либо "хитрого" подхода.<br>
<div>
<div><br>
>> Вот такие капчи генерятся. Какое Ваше мнение, сложно они
автоматом<br>
>> распознаются?<br>
<br>
<br>
<br>
--<br>
<br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a href="mailto:postmaster@softsearch.ru" target="_blank">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
<a href="http://michael.mindmix.ru/" target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
<br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a>
| <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div>
</div>
</blockquote>
</div>
<br>
<pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
</pre>
</blockquote>
</div>
</div>
Как правило основной алгоритм:<br>
<br>
<tt>use India;<br>
my $india = India->new<br>
my $man = $india->get_cheap_man;<br>
$man->pay("$0.0001");<br>
my $captcha = $man->process(
'<a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">http://id.c</a><font color="#551a8b"><u>--</u></font></tt></div>
<div bgcolor="#ffffff" text="#000000"><font color="#551a8b" face="monospace"><u>Moscow.pm mailing list</u></font></div>
<div bgcolor="#ffffff" text="#000000"><font color="#551a8b" face="monospace"><u><a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a></u></font></div>
<div bgcolor="#ffffff" text="#000000"><br>
</div>
<div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">aptcha.rambler.ru/</a><font color="#0000ee"><u>--</u></font></tt></div>
<div bgcolor="#ffffff" text="#000000"><font color="#0000ee" face="monospace"><u>Moscow.pm mailing list</u></font></div>
<div bgcolor="#ffffff" text="#000000"><font color="#0000ee" face="monospace"><u><a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a></u></font></div>
<div bgcolor="#ffffff" text="#000000"><br>
</div>
<div bgcolor="#ffffff" text="#000000"><tt><a href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg" target="_blank">641aa883fc83131c590a6c5f9e63aa4c.jpg</a>');</tt><br>
<br>
<br>
вот эту капчу натренированный индус распознает вмиг. А пользователь
себе мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в
Индии :-)<br>
</div>
<br>
</blockquote>
<div><br>
</div>
<div>Я имел в виду алгоритмы в Тессеракте.</div>
<div><br>
</div>
<div>А индусы в мишином случае на раз отсекаются кириллическими
буквами.</div>
<div><br>
</div>
<div>Текущая рамблеровская капча является плохим примером, так как
разработчики упростили её распознавание использованием нескольких
цветов, а также убиранием антисегментирующего мусора. В аттаче пример
старой капчи. Она распознаётся сильно хуже, а читается либо так же,
либо лучше.</div>
</div>
<pre><fieldset></fieldset>
--
Moscow.pm mailing list
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a>
</pre>
</blockquote></div></div>
Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые
буквы :-)<br></div></blockquote><div><br>Умного индуса уже не устроит зарплата батарейки в матрице :)<br><br></div></div>