[Moscow.pm] Как парсить сайты?
Ivan Petrov
i.petro.77.00 на gmail.com
Ср Дек 18 00:58:23 PST 2013
> Доброго времени суток, могучие MoscowPM!
> Надо сделать мониторинг нескольких десятков страниц на одном ресурсе.
> Вопрос в основном про то, чем получать страницы, как их разбирать, как искать
> на них нужное.
мы в последнее время в качестве html парсера стали юзать XML::LibXML и
оч довольны. скорость оч приятная (если сравнивать например с
mojo::dom, так более чем на порядок быстрее), манипуляции по xpath -
довольно удобно.
> Из каких базовых вещей это собирать?
> ( ... ~mojo, AnyEvent,...)
скачивалку контента - конечно на AnyEvent
> И как делать то же самое, если на сайте ещё есть авторизация? (например, vk или
> gmail)
дык авторизовываться.
куки там добавлять или токен авторизационный.
как на каком сайте сделано так и делать :)
Подробная информация о списке рассылки Moscow-pm