<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
02.02.10 18:06, Alex Kapranoff написав(ла):
<blockquote
cite="mid:d020f8bb1002020706i4719980amac0bc832c9a9d947@mail.gmail.com"
type="cite">
<div>Касание -- не препятствие, потому что оно не препятствует
сегментации картинки на буквы :) Не уверен, что знаю, какие там
алгоритмы, но скорее всего картинка строчки текста разбивается на
вертикальные блоки в разных местах, а потом выбирается самое интересное
разбиение.</div>
<div><br>
</div>
<div>В аттаче пример, который напрочь убивает распознавание
тессерактом. Я просто провёл в гимпе чёрную горизонтальную полоску
поверх букв.</div>
<br clear="all">
-- <br>
Alex Kapranoff.<br>
<br>
<br>
<div class="gmail_quote">2010/1/23 Михаил Монашёв <span dir="ltr"><<a
moz-do-not-send="true" href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a>></span><br>
<blockquote class="gmail_quote"
style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Здравствуйте,
Александр.<br>
<br>
хммм. выходит, что касание букв - это не препятствие для распознавания,<br>
как писалось ранее...<br>
<br>
AS> четвёртый символ, конечно, не распознан, но это за 10 минут:<br>
AS> --copy<br>
AS> cyga@host:~/dev/capthca$ convert yzhv.png -scale 50x50+0+0 1.tif<br>
AS> cyga@host:~/dev/capthca$ convert 1.tif -blur 0 2.tif<br>
AS> cyga@host:~/dev/capthca$ tesseract 2.tif 2.tif<br>
AS> Tesseract Open Source OCR Engine<br>
AS> cyga@abergman:~/dev/capthca$ cat 2.tif.txt<br>
AS> YZHI<br>
AS> --cut<br>
AS> и без какого-либо "хитрого" подхода.<br>
<div>
<div class="h5"><br>
>> Вот такие капчи генерятся. Какое Ваше мнение, сложно они
автоматом<br>
>> распознаются?<br>
<br>
<br>
<br>
--<br>
<br>
С уважением,<br>
Михаил Монашёв, SoftSearch.ru<br>
mailto:<a moz-do-not-send="true" href="mailto:postmaster@softsearch.ru">postmaster@softsearch.ru</a><br>
ICQ# 166233339<br>
<a moz-do-not-send="true" href="http://michael.mindmix.ru/"
target="_blank">http://michael.mindmix.ru/</a><br>
Без бэкапа по жизни.<br>
<br>
--<br>
Moscow.pm mailing list<br>
<a moz-do-not-send="true" href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a>
| <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div>
</div>
</blockquote>
</div>
<br>
<pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
--
Moscow.pm mailing list
<a class="moz-txt-link-abbreviated" href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a class="moz-txt-link-freetext" href="http://moscow.pm.org">http://moscow.pm.org</a>
</pre>
</blockquote>
Как правило основной алгоритм:<br>
<br>
<tt>use India;<br>
my $india = India->new<br>
my $man = $india->get_cheap_man;<br>
$man->pay("$0.0001");<br>
my $captcha = $man->process(
'<a class="moz-txt-link-freetext" href="http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg">http://id.captcha.rambler.ru/641aa883fc83131c590a6c5f9e63aa4c.jpg</a>');</tt><br>
<br>
<br>
вот эту капчу натренированный индус распознает вмиг. А пользователь
себе мозг сломает. Выход, пожалуй, один - поднимать уровень жизни в
Индии :-)<br>
</body>
</html>