[Moscow.pm] Порка капчи
Andrey Kostenko
andrey на kostenko.name
Вт Фев 2 09:50:30 PST 2010
02.02.10 19:27, Alex Kapranoff написав(ла):
> 2010/2/2 Andrey Kostenko <andrey на kostenko.name
> <mailto:andrey на kostenko.name>>
>
> 02.02.10 18:06, Alex Kapranoff написав(ла):
>> Касание -- не препятствие, потому что оно не препятствует
>> сегментации картинки на буквы :) Не уверен, что знаю, какие там
>> алгоритмы, но скорее всего картинка строчки текста разбивается на
>> вертикальные блоки в разных местах, а потом выбирается самое
>> интересное разбиение.
>>
>> В аттаче пример, который напрочь убивает распознавание
>> тессерактом. Я просто провёл в гимпе чёрную горизонтальную
>> полоску поверх букв.
>>
>> --
>> Alex Kapranoff.
>>
>>
>> 2010/1/23 Михаил Монашёв <postmaster на softsearch.ru
>> <mailto:postmaster на softsearch.ru>>
>>
>> Здравствуйте, Александр.
>>
>> хммм. выходит, что касание букв - это не препятствие для
>> распознавания,
>> как писалось ранее...
>>
>> AS> четвёртый символ, конечно, не распознан, но это за 10 минут:
>> AS> --copy
>> AS> cyga на host:~/dev/capthca$ convert yzhv.png -scale
>> 50x50+0+0 1.tif
>> AS> cyga на host:~/dev/capthca$ convert 1.tif -blur 0 2.tif
>> AS> cyga на host:~/dev/capthca$ tesseract 2.tif 2.tif
>> AS> Tesseract Open Source OCR Engine
>> AS> cyga на abergman:~/dev/capthca$ cat 2.tif.txt
>> AS> YZHI
>> AS> --cut
>> AS> и без какого-либо "хитрого" подхода.
>>
>> >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они
>> автоматом
>> >> распознаются?
>>
>>
>>
>> --
>>
>> С уважением,
>> Михаил Монашёв, SoftSearch.ru
>> mailto:postmaster на softsearch.ru <mailto:postmaster на softsearch.ru>
>> ICQ# 166233339
>> http://michael.mindmix.ru/
>> Без бэкапа по жизни.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org
>>
>>
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org <mailto:moscow-pm на pm.org> |http://moscow.pm.org
>>
> Как правило основной алгоритм:
>
> use India;
> my $india = India->new
> my $man = $india->get_cheap_man;
> $man->pay("$0.0001");
> my $captcha = $man->process( 'http://id.c
> <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>_--_
> _Moscow.pm mailing list_
> _moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org_
>
> aptcha.rambler.ru/
> <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>_--_
> _Moscow.pm mailing list_
> _moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org_
>
> 641aa883fc83131c590a6c5f9e63aa4c.jpg
> <http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>');
>
>
> вот эту капчу натренированный индус распознает вмиг. А
> пользователь себе мозг сломает. Выход, пожалуй, один - поднимать
> уровень жизни в Индии :-)
>
>
> Я имел в виду алгоритмы в Тессеракте.
>
> А индусы в мишином случае на раз отсекаются кириллическими буквами.
>
> Текущая рамблеровская капча является плохим примером, так как
> разработчики упростили её распознавание использованием нескольких
> цветов, а также убиранием антисегментирующего мусора. В аттаче пример
> старой капчи. Она распознаётся сильно хуже, а читается либо так же,
> либо лучше.
>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые
буквы :-)
PS: эффект был временным. Все текущие спам-боты тогда сломались :-)
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/f90c5223/attachment.html>
Подробная информация о списке рассылки Moscow-pm