[Moscow.pm] Как парсить сайты?

Stanislaw Pusep creaktive на gmail.com
Пт Дек 20 04:16:24 PST 2013


Приличный материал про селекторы типа XPath:
http://zvon.org/comp/r/tut-XPath_1.html


2013/12/19 Харпалёв Иван <ivan.kharpalev на gmail.com>

> Спасибо! Очень много ссылок в тему!
> Особенно понравился вариант с  Mojo, поскольку, кажется, что материал "для
> освоения" компактнее.
>
> Как понимаю, для того, чтобы нормально разбирать страницы, нужно освоиться
> с DOM, всякими селекторами и т.д.
> Такого бэкграунда мало(
> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
> ликбезом?)
>
> Встал на путь истинный, спасибо!
>
>
> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
> sharifulin на gmail.com> написал:
>
> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>>
>>
>> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>>
>>> Если там реально несколько десятков страниц и смысл в мониторинге, то
>>> можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>>> так:
>>>
>>> $t->get_ok($t->tx->res->headers->location
>>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>>> #A2C1D9;"]');
>>>
>>> $t->post_ok( $url => form => \%pay_form
>>> )->status_is(302)->header_like(Location => qr|^
>>> http://partner.a1pay.ru/a1lite/selectType|);
>>>
>>> Евгений
>>>
>>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>>
>>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте про
>>> все ссылки
>>> >
>>> > если на производительность совсем уж наплевать, то можно и Mojo::DOM с
>>> > Mojo::UserAgent
>>> >
>>> > --
>>> > Moscow.pm mailing list
>>> > moscow-pm на pm.org | http://moscow.pm.org
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>>
>>
>>
>> --
>> С уважением,
>>  Анатолий Шарифулин.
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20131220/a1acb8a8/attachment-0001.html>


Подробная информация о списке рассылки Moscow-pm