[Moscow.pm] Порка капчи

Andrey Kostenko andrey на kostenko.name
Вт Фев 2 09:50:30 PST 2010


02.02.10 19:27, Alex Kapranoff написав(ла):
> 2010/2/2 Andrey Kostenko <andrey на kostenko.name 
> <mailto:andrey на kostenko.name>>
>
>     02.02.10 18:06, Alex Kapranoff написав(ла):
>>     Касание -- не препятствие, потому что оно не препятствует
>>     сегментации картинки на буквы :) Не уверен, что знаю, какие там
>>     алгоритмы, но скорее всего картинка строчки текста разбивается на
>>     вертикальные блоки в разных местах, а потом выбирается самое
>>     интересное разбиение.
>>
>>     В аттаче пример, который напрочь убивает распознавание
>>     тессерактом. Я просто провёл в гимпе чёрную горизонтальную
>>     полоску поверх букв.
>>
>>     -- 
>>     Alex Kapranoff.
>>
>>
>>     2010/1/23 Михаил Монашёв <postmaster на softsearch.ru
>>     <mailto:postmaster на softsearch.ru>>
>>
>>         Здравствуйте, Александр.
>>
>>         хммм. выходит, что касание букв - это не препятствие для
>>         распознавания,
>>         как писалось ранее...
>>
>>         AS> четвёртый символ, конечно, не распознан, но это за 10 минут:
>>         AS> --copy
>>         AS> cyga на host:~/dev/capthca$ convert yzhv.png -scale
>>         50x50+0+0 1.tif
>>         AS> cyga на host:~/dev/capthca$ convert 1.tif -blur 0 2.tif
>>         AS> cyga на host:~/dev/capthca$ tesseract 2.tif 2.tif
>>         AS> Tesseract Open Source OCR Engine
>>         AS> cyga на abergman:~/dev/capthca$ cat 2.tif.txt
>>         AS> YZHI
>>         AS> --cut
>>         AS> и без какого-либо "хитрого" подхода.
>>
>>         >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они
>>         автоматом
>>         >> распознаются?
>>
>>
>>
>>         --
>>
>>         С уважением,
>>         Михаил Монашёв, SoftSearch.ru
>>         mailto:postmaster на softsearch.ru <mailto:postmaster на softsearch.ru>
>>         ICQ# 166233339
>>         http://michael.mindmix.ru/
>>         Без бэкапа по жизни.
>>
>>         --
>>         Moscow.pm mailing list
>>         moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org
>>
>>
>>
>>     --
>>     Moscow.pm mailing list
>>     moscow-pm на pm.org  <mailto:moscow-pm на pm.org>  |http://moscow.pm.org
>>        
>     Как правило основной алгоритм:
>
>     use India;
>     my $india = India->new
>     my $man = $india->get_cheap_man;
>     $man->pay("$0.0001");
>     my $captcha = $man->process( 'http://id.c
>     <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>_--_
>     _Moscow.pm mailing list_
>     _moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org_
>
>     aptcha.rambler.ru/
>     <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>_--_
>     _Moscow.pm mailing list_
>     _moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org_
>
>     641aa883fc83131c590a6c5f9e63aa4c.jpg
>     <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>');
>
>
>     вот эту капчу натренированный индус распознает вмиг. А
>     пользователь себе мозг сломает. Выход, пожалуй, один - поднимать
>     уровень жизни в Индии :-)
>
>
> Я имел в виду алгоритмы в Тессеракте.
>
> А индусы в мишином случае на раз отсекаются кириллическими буквами.
>
> Текущая рамблеровская капча является плохим примером, так как 
> разработчики упростили её распознавание использованием нескольких 
> цветов, а также убиранием антисегментирующего мусора. В аттаче пример 
> старой капчи. Она распознаётся сильно хуже, а читается либо так же, 
> либо лучше.
>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>    
Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые 
буквы :-)
PS: эффект был временным. Все текущие спам-боты тогда сломались :-)
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/f90c5223/attachment.html>


Подробная информация о списке рассылки Moscow-pm