[Moscow.pm] Как парсить сайты?

Харпалёв Иван ivan.kharpalev на gmail.com
Ср Дек 25 04:12:20 PST 2013


Спасибо, очень хороший материал про XPath!! один раз прочесть и ясность)


20 декабря 2013 г., 16:16 пользователь Stanislaw Pusep
<creaktive на gmail.com>написал:

> Приличный материал про селекторы типа XPath:
> http://zvon.org/comp/r/tut-XPath_1.html
>
>
> 2013/12/19 Харпалёв Иван <ivan.kharpalev на gmail.com>
>
>> Спасибо! Очень много ссылок в тему!
>> Особенно понравился вариант с  Mojo, поскольку, кажется, что материал
>> "для освоения" компактнее.
>>
>> Как понимаю, для того, чтобы нормально разбирать страницы, нужно
>> освоиться с DOM, всякими селекторами и т.д.
>> Такого бэкграунда мало(
>> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
>> ликбезом?)
>>
>> Встал на путь истинный, спасибо!
>>
>>
>> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
>> sharifulin на gmail.com> написал:
>>
>> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>>>
>>>
>>> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>>>
>>>> Если там реально несколько десятков страниц и смысл в мониторинге, то
>>>> можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>>>> так:
>>>>
>>>> $t->get_ok($t->tx->res->headers->location
>>>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>>>> #A2C1D9;"]');
>>>>
>>>> $t->post_ok( $url => form => \%pay_form
>>>> )->status_is(302)->header_like(Location => qr|^
>>>> http://partner.a1pay.ru/a1lite/selectType|);
>>>>
>>>> Евгений
>>>>
>>>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>>>
>>>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте про
>>>> все ссылки
>>>> >
>>>> > если на производительность совсем уж наплевать, то можно и Mojo::DOM с
>>>> > Mojo::UserAgent
>>>> >
>>>> > --
>>>> > Moscow.pm mailing list
>>>> > moscow-pm на pm.org | http://moscow.pm.org
>>>>
>>>> --
>>>> Moscow.pm mailing list
>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>
>>>
>>>
>>>
>>> --
>>> С уважением,
>>>  Анатолий Шарифулин.
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>>>
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20131225/b0f1b357/attachment.html>


Подробная информация о списке рассылки Moscow-pm