[Moscow.pm] Как парсить сайты?

Ivan Petrov i.petro.77.00 на gmail.com
Ср Дек 18 00:58:23 PST 2013


> Доброго времени суток, могучие MoscowPM!

> Надо сделать мониторинг  нескольких десятков страниц на одном ресурсе.
> Вопрос в основном про то, чем получать страницы,  как их разбирать, как искать
> на них нужное.

мы в последнее время в качестве html парсера стали юзать XML::LibXML и
оч довольны. скорость оч приятная (если сравнивать например с
mojo::dom, так более чем на порядок быстрее), манипуляции по xpath -
довольно удобно.

> Из каких базовых вещей это собирать?
> ( ... ~mojo, AnyEvent,...)

скачивалку контента - конечно на AnyEvent

> И как делать то же самое, если на сайте ещё есть авторизация? (например, vk или
> gmail)

дык авторизовываться.
куки там добавлять или токен авторизационный.
как на каком сайте сделано так и делать :)


Подробная информация о списке рассылки Moscow-pm