[Moscow.pm] Бааальшие XML: потоковый парсинг

Анатолий Шарифулин sharifulin на gmail.com
Чт Апр 12 05:28:56 PDT 2012


Регекспами тоже на ура парсится, но не всегда мы их выбираем.

On Thu, Apr 12, 2012 at 4:20 PM, Orlovsky Alexander <nordicdyno на yandex.ru>wrote:

> Файлы ~100-300 мб нормально парсятся из Perl (потоково, конечно), LibXML
> рулит*! (быстрый, обновляется часто, есть все что нужно)
>
> Кстати, про XML. Не забывайте в своих XML-читалках отключать поддержку
> внешних entities - это потенциальная дыра в безопасности (
> http://stackoverflow.com/questions/1906927/xml-vulnerabilities)
>
>
> * но XML вообще не рулит ни разу )
>
> 11.04.2012, 21:07, "Andrew Shitov" <andy на shitov.ru>:
> > 2011/11/11 Maxim Vuets <maxim.vuets на gmail.com>:
> >
> >>  Сейчас Андрей Шитов скажет "libxml2" (:
> >
> > А вот сейчас скажу: да :-)
> >
> > Попробовал написать SAX-парсер больших (~150 МБ) файлов на С++ и
> > получилось. Одним словом, libxml2 пригоден и для этого.
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>



-- 
С уважением,
 Анатолий Шарифулин.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120412/24b7f42e/attachment-0001.html>


Подробная информация о списке рассылки Moscow-pm