[Moscow.pm] вакансия Senior Web developer ( Главный разработчик ) INDEC Ltd

Alex Kapranoff kapranoff на gmail.com
Чт Дек 24 03:56:26 PST 2009


2009/12/24 Dmitry E. Oboukhov <unera на debian.org>

> A> Есть SAX-подобные парсеры типа HTML::TokeParser.
>
> ага, попарсь ими например какой-нибудь mailru (где постоянно грешат
> незакрытыми тегами) что-то вроде
>
> <tr>
>    <td>jdjdkjk
>    <td>mlkllk
> <tfoot>
>    <tr>
>        <td>...</td>
>    </tr>
> </tfoot>
>
> и получится что когда хотим что-то конкретное выколупывать из сайтов
> то парсеры "ломаются" в каком-то конкретном случае и начинают вместо
> тега выколупывать еще и соседние.
>
> да, понятно что это невалидный html, но такого пол интернета :(
>

Рамблер-почта парсит HTML-письма со всего мира с помощью HTML::Parser (он
как раз событийный). Невалидность, которая встречается в письмах, настолько
невалидна, что дух захватывает :) Ничего, справляется. Восстановление
порядка в таблицах конечно писали сами, но, повторяю, событийные парсеры
позволяют делать с семантикой всё что угодно.
----------- следущая часть -----------
Вложение в формате HTML было извлечено&hellip;
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20091224/21725687/attachment.html>


Подробная информация о списке рассылки Moscow-pm