[Moscow.pm] вакансия Senior Web developer ( Главный разработчик ) INDEC Ltd

Mons Anderson mons на cpan.org
Чт Дек 24 02:02:54 PST 2009


On Thursday 24 December 2009 12:55:45 Dmitry E. Oboukhov wrote:
> A> Есть SAX-подобные парсеры типа HTML::TokeParser.
>
> ага, попарсь ими например какой-нибудь mailru (где постоянно грешат
> незакрытыми тегами) что-то вроде

HTML::TokeParser прекрасно преобразовывает подобный говнокод хоть до xhtml.
Потому как логика работы сходна с работой самих браузеров.

> и получится что когда хотим что-то конкретное выколупывать из сайтов
> то парсеры "ломаются" в каком-то конкретном случае и начинают вместо
> тега выколупывать еще и соседние.

А вот regexp-based парсеры, или xml-based могуд грешить подобным
Хотя XML::LibXML в режиме восстановления html тоже достаточно неплох

-- 
Mons Anderson aka Vladimir Perepelitsa
<mons на cpan.org> / #99779956 / quanth на irc.freenode.net


Подробная информация о списке рассылки Moscow-pm