[Moscow.pm] Порка капчи

Alex Kapranoff kapranoff на gmail.com
Вт Фев 2 07:06:01 PST 2010


Касание -- не препятствие, потому что оно не препятствует сегментации
картинки на буквы :) Не уверен, что знаю, какие там алгоритмы, но скорее
всего картинка строчки текста разбивается на вертикальные блоки в разных
местах, а потом выбирается самое интересное разбиение.

В аттаче пример, который напрочь убивает распознавание тессерактом. Я просто
провёл в гимпе чёрную горизонтальную полоску поверх букв.

-- 
Alex Kapranoff.


2010/1/23 Михаил Монашёв <postmaster на softsearch.ru>

> Здравствуйте, Александр.
>
> хммм. выходит, что касание букв - это не препятствие для распознавания,
> как писалось ранее...
>
> AS> четвёртый символ, конечно, не распознан, но это за 10 минут:
> AS> --copy
> AS> cyga на host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif
> AS> cyga на host:~/dev/capthca$ convert 1.tif -blur 0 2.tif
> AS> cyga на host:~/dev/capthca$ tesseract 2.tif 2.tif
> AS> Tesseract Open Source OCR Engine
> AS> cyga на abergman:~/dev/capthca$ cat 2.tif.txt
> AS> YZHI
> AS> --cut
> AS> и без какого-либо "хитрого" подхода.
>
> >> Вот такие капчи генерятся. Какое Ваше мнение, сложно они автоматом
> >> распознаются?
>
>
>
> --
>
> С уважением,
> Михаил Монашёв, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/81a10e01/attachment.html>
----------- следущая часть -----------
A non-text attachment was scrubbed...
Name: yzhv.png
Type: image/png
Size: 3180 bytes
Desc: отсутствует
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20100202/81a10e01/attachment.png>


Подробная информация о списке рассылки Moscow-pm