[Moscow.pm] Как парсить сайты?
Foxcool
foxcool333 на gmail.com
Чт Дек 19 04:20:52 PST 2013
19.12.2013 15:53, Харпалёв Иван пишет:
> Спасибо! Очень много ссылок в тему!
> Особенно понравился вариант с Mojo, поскольку, кажется, что материал
> "для освоения" компактнее.
>
> Как понимаю, для того, чтобы нормально разбирать страницы, нужно
> освоиться с DOM, всякими селекторами и т.д.
> Такого бэкграунда мало(
> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
> ликбезом?)
>
> Встал на путь истинный, спасибо!
>
>
> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин
> <sharifulin на gmail.com <mailto:sharifulin на gmail.com>> написал:
>
> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю
> так :)
>
>
> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com
> <mailto:eugene.toropov на gmail.com>>
>
> Если там реально несколько десятков страниц и смысл в
> мониторинге, то можно вообще Test::Mojo и проходить
> последовательно. Код выглядит как-то так:
>
> $t->get_ok($t->tx->res->headers->location
> )->status_is('200')->element_exists('td[style="border-right:1px solid
> #A2C1D9;"]');
>
> $t->post_ok( $url => form => \%pay_form
> )->status_is(302)->header_like(Location =>
> qr|^http://partner.a1pay.ru/a1lite/selectType|
> <http://partner.a1pay.ru/a1lite/selectType%7C>);
>
> Евгений
>
> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>
> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и
> забудьте про все ссылки
> >
> > если на производительность совсем уж наплевать, то можно и
> Mojo::DOM с
> > Mojo::UserAgent
> >
> > --
> > Moscow.pm mailing list
> > moscow-pm на pm.org <mailto:moscow-pm на pm.org> |
> http://moscow.pm.org
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org
>
>
>
>
> --
> С уважением,
> Анатолий Шарифулин.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org <mailto:moscow-pm на pm.org> | http://moscow.pm.org
>
>
>
>
Я в свое время неплохо освоился с Web::Scraper. Это вроде не такое
тормозное решение, как с моджо. Однако понадобится работать с
селекторами. А селекторы - несложная тема. Берем и смотрим от той же
моджи доку: http://mojolicio.us/perldoc/Mojo/DOM/CSS
И по таким же селекторам можно ловить содержимое вебскрапером. Правда
там необычный (вроде декларативный) интерфейс и поначалу немного ломает
мозг, но как только вкуриваешь, то сразу же парсинг решулярками или еще
какой изврат больше не потянет к себе. Ну а селекторы по теблице берешь
и копируешь, какой надо. Тут достаточно иметь представление об html и css
--
http://foxcool.ru
foxcool на jabber.ru
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20131219/9067aa73/attachment.html>
Подробная информация о списке рассылки Moscow-pm