[Moscow.pm] Порка капчи

Alex Kapranoff kapranoff на gmail.com
Вт Фев 2 12:00:27 PST 2010


2010/2/2 Andrey Kostenko <andrey на kostenko.name>

>  02.02.10 19:27, Alex Kapranoff написав(ла):
>
> 2010/2/2 Andrey Kostenko <andrey на kostenko.name>
>
>> 02.02.10 18:06, Alex Kapranoff написав(ла):
>>
>> Касание -- не препятствие, потому что оно не препятствует сегментации
>> картинки на буквы :) Не уверен, что знаю, какие там алгоритмы, но скорее
>> всего картинка строчки текста разбивается на вертикальные блоки в разных
>> местах, а потом выбирается самое интересное разбиение.
>>
>>  В аттаче пример, который напрочь убивает распознавание тессерактом. Я
>> просто провёл в гимпе чёрную горизонтальную полоску поверх букв.
>>
>> --
>> Alex Kapranoff.
>>
>>
>> 2010/1/23 Михаил Монашёв <postmaster на softsearch.ru>
>>
>>> Здравствуйте, Александр.
>>>
>>> хммм. выходит, что касание букв - это не препятствие для распознавания,
>>> как писалось ранее...
>>>
>>> AS> четвёртый символ, конечно, не распознан, но это за 10 минут:
>>> AS> --copy
>>> AS> cyga на host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif
>>> AS> cyga на host:~/dev/capthca$ convert 1.tif -blur 0 2.tif
>>> AS> cyga на host:~/dev/capthca$ tesseract 2.tif 2.tif
>>> AS> Tesseract Open Source OCR Engine
>>> AS> cyga на abergman:~/dev/capthca$ cat 2.tif.txt
>>> AS> YZHI
>>> AS> --cut
>>> AS> и без какого-либо "хитрого" подхода.
>>>
>>> >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они автоматом
>>> >> распознаются?
>>>
>>>
>>>
>>> --
>>>
>>> С уважением,
>>> Михаил Монашёв, SoftSearch.ru
>>> mailto:postmaster на softsearch.ru
>>> ICQ# 166233339
>>> http://michael.mindmix.ru/
>>> Без бэкапа по жизни.
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>>
>>
>> --
>> Moscow.pm mailing listmoscow-pm на pm.org | http://moscow.pm.org
>>
>>   Как правило основной алгоритм:
>>
>> use India;
>> my $india = India->new
>> my $man = $india->get_cheap_man;
>> $man->pay("$0.0001");
>> my $captcha = $man->process( 'http://id.c<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
>> *--*
>> *Moscow.pm mailing list*
>> *moscow-pm на pm.org | http://moscow.pm.org*
>>
>>  aptcha.rambler.ru/<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
>> *--*
>> *Moscow.pm mailing list*
>> *moscow-pm на pm.org | http://moscow.pm.org*
>>
>>  641aa883fc83131c590a6c5f9e63aa4c.jpg<http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg>
>> ');
>>
>>
>> вот эту капчу натренированный индус распознает вмиг. А пользователь себе
>> мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в Индии :-)
>>
>>
>  Я имел в виду алгоритмы в Тессеракте.
>
>  А индусы в мишином случае на раз отсекаются кириллическими буквами.
>
>  Текущая рамблеровская капча является плохим примером, так как
> разработчики упростили её распознавание использованием нескольких цветов, а
> также убиранием антисегментирующего мусора. В аттаче пример старой капчи.
> Она распознаётся сильно хуже, а читается либо так же, либо лучше.
>
>
> --
> Moscow.pm mailing listmoscow-pm на pm.org | http://moscow.pm.org
>
>  Умный индус пойдет на курсы повышения квалификации, где выучит 32 новые
> буквы :-)
>

Умного индуса уже не устроит зарплата батарейки в матрице :)
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/1be09877/attachment.html>


Подробная информация о списке рассылки Moscow-pm