[Moscow.pm] Порка капчи

Alex Kapranoff kapranoff на gmail.com
Вт Фев 2 08:27:18 PST 2010


2010/2/2 Andrey Kostenko <andrey на kostenko.name>

>  02.02.10 18:06, Alex Kapranoff написав(ла):
>
> Касание -- не препятствие, потому что оно не препятствует сегментации
> картинки на буквы :) Не уверен, что знаю, какие там алгоритмы, но скорее
> всего картинка строчки текста разбивается на вертикальные блоки в разных
> местах, а потом выбирается самое интересное разбиение.
>
>  В аттаче пример, который напрочь убивает распознавание тессерактом. Я
> просто провёл в гимпе чёрную горизонтальную полоску поверх букв.
>
> --
> Alex Kapranoff.
>
>
> 2010/1/23 Михаил Монашёв <postmaster на softsearch.ru>
>
>> Здравствуйте, Александр.
>>
>> хммм. выходит, что касание букв - это не препятствие для распознавания,
>> как писалось ранее...
>>
>> AS> четвёртый символ, конечно, не распознан, но это за 10 минут:
>> AS> --copy
>> AS> cyga на host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif
>> AS> cyga на host:~/dev/capthca$ convert 1.tif -blur 0 2.tif
>> AS> cyga на host:~/dev/capthca$ tesseract 2.tif 2.tif
>> AS> Tesseract Open Source OCR Engine
>> AS> cyga на abergman:~/dev/capthca$ cat 2.tif.txt
>> AS> YZHI
>> AS> --cut
>> AS> и без какого-либо "хитрого" подхода.
>>
>> >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они автоматом
>> >> распознаются?
>>
>>
>>
>> --
>>
>> С уважением,
>> Михаил Монашёв, SoftSearch.ru
>> mailto:postmaster на softsearch.ru
>> ICQ# 166233339
>> http://michael.mindmix.ru/
>> Без бэкапа по жизни.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>
>
> --
> Moscow.pm mailing listmoscow-pm на pm.org | http://moscow.pm.org
>
>  Как правило основной алгоритм:
>
> use India;
> my $india = India->new
> my $man = $india->get_cheap_man;
> $man->pay("$0.0001");
> my $captcha = $man->process( 'http://id.c<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
> *--*
> *Moscow.pm mailing list*
> *moscow-pm на pm.org | http://moscow.pm.org*
>
> aptcha.rambler.ru/<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
> *--*
> *Moscow.pm mailing list*
> *moscow-pm на pm.org | http://moscow.pm.org*
>
> 641aa883fc83131c590a6c5f9e63aa4c.jpg<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
> ');
>
>
> вот эту капчу натренированный индус распознает вмиг. А пользователь себе
> мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в Индии :-)
>
>
Я имел в виду алгоритмы в Тессеракте.

А индусы в мишином случае на раз отсекаются кириллическими буквами.

Текущая рамблеровская капча является плохим примером, так как разработчики
упростили её распознавание использованием нескольких цветов, а также
убиранием антисегментирующего мусора. В аттаче пример старой капчи. Она
распознаётся сильно хуже, а читается либо так же, либо лучше.
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/a7686c33/attachment-0001.html>
----------- следущая часть -----------
A non-text attachment was scrubbed...
Name: c_ramnew3.jpg
Type: image/jpeg
Size: 2865 bytes
Desc: отсутствует
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/a7686c33/attachment-0001.jpg>


Подробная информация о списке рассылки Moscow-pm