[Moscow.pm] Как парсить сайты?

Харпалёв Иван ivan.kharpalev на gmail.com
Чт Дек 19 03:53:20 PST 2013


Спасибо! Очень много ссылок в тему!
Особенно понравился вариант с  Mojo, поскольку, кажется, что материал "для
освоения" компактнее.

Как понимаю, для того, чтобы нормально разбирать страницы, нужно освоиться
с DOM, всякими селекторами и т.д.
Такого бэкграунда мало(
Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
ликбезом?)

Встал на путь истинный, спасибо!


18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
sharifulin на gmail.com> написал:

> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>
>
> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>
>> Если там реально несколько десятков страниц и смысл в мониторинге, то
>> можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>> так:
>>
>> $t->get_ok($t->tx->res->headers->location
>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>> #A2C1D9;"]');
>>
>> $t->post_ok( $url => form => \%pay_form
>> )->status_is(302)->header_like(Location => qr|^
>> http://partner.a1pay.ru/a1lite/selectType|);
>>
>> Евгений
>>
>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>
>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте про
>> все ссылки
>> >
>> > если на производительность совсем уж наплевать, то можно и Mojo::DOM с
>> > Mojo::UserAgent
>> >
>> > --
>> > Moscow.pm mailing list
>> > moscow-pm на pm.org | http://moscow.pm.org
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>
>
>
> --
> С уважением,
>  Анатолий Шарифулин.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20131219/cceceef7/attachment.html>


Подробная информация о списке рассылки Moscow-pm