[Moscow.pm] Как парсить сайты?

Akzhan Abdulin akzhan.abdulin на gmail.com
Пт Янв 3 05:18:54 PST 2014


https://metacpan.org/pod/WWW::WebKit


3 января 2014 г., 17:08 пользователь Харпалёв Иван <ivan.kharpalev на gmail.com
> написал:

> Господа! Спасибо, очень помогло!
> Разобрался, как получать документы и искать в них нужное через DOM и
> селекторы.
>
> Но Беда!!
> Как быть, если контент формируется динамически в броузере?? (по событиям
> исполняется js и в результате этого возникают целевые элементы dom)
>
>
> Хотя бы как быть со страницами, которые по onLoad() за некоторое время
> формируются?
>
> А глобальный вопрос в свете этого ----
> Есть ли броузер с api из Perl?
> чтобы было можно возбуждать события, читать писать переменные.
>
> Спасибо!
>
>
> 25 декабря 2013 г., 16:12 пользователь Харпалёв Иван <
> ivan.kharpalev на gmail.com> написал:
>
> Спасибо, очень хороший материал про XPath!! один раз прочесть и ясность)
>>
>>
>> 20 декабря 2013 г., 16:16 пользователь Stanislaw Pusep <
>> creaktive на gmail.com> написал:
>>
>> Приличный материал про селекторы типа XPath:
>>> http://zvon.org/comp/r/tut-XPath_1.html
>>>
>>>
>>> 2013/12/19 Харпалёв Иван <ivan.kharpalev на gmail.com>
>>>
>>>> Спасибо! Очень много ссылок в тему!
>>>> Особенно понравился вариант с  Mojo, поскольку, кажется, что материал
>>>> "для освоения" компактнее.
>>>>
>>>> Как понимаю, для того, чтобы нормально разбирать страницы, нужно
>>>> освоиться с DOM, всякими селекторами и т.д.
>>>> Такого бэкграунда мало(
>>>> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
>>>> ликбезом?)
>>>>
>>>> Встал на путь истинный, спасибо!
>>>>
>>>>
>>>> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
>>>> sharifulin на gmail.com> написал:
>>>>
>>>> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>>>>>
>>>>>
>>>>> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>>>>>
>>>>>> Если там реально несколько десятков страниц и смысл в мониторинге, то
>>>>>> можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>>>>>> так:
>>>>>>
>>>>>> $t->get_ok($t->tx->res->headers->location
>>>>>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>>>>>> #A2C1D9;"]');
>>>>>>
>>>>>> $t->post_ok( $url => form => \%pay_form
>>>>>> )->status_is(302)->header_like(Location => qr|^
>>>>>> http://partner.a1pay.ru/a1lite/selectType|);
>>>>>>
>>>>>> Евгений
>>>>>>
>>>>>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>>>>>
>>>>>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте
>>>>>> про все ссылки
>>>>>> >
>>>>>> > если на производительность совсем уж наплевать, то можно и
>>>>>> Mojo::DOM с
>>>>>> > Mojo::UserAgent
>>>>>> >
>>>>>> > --
>>>>>> > Moscow.pm mailing list
>>>>>> > moscow-pm на pm.org | http://moscow.pm.org
>>>>>>
>>>>>> --
>>>>>> Moscow.pm mailing list
>>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>>
>>>>>
>>>>>
>>>>>
>>>>> --
>>>>> С уважением,
>>>>>  Анатолий Шарифулин.
>>>>>
>>>>> --
>>>>> Moscow.pm mailing list
>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>
>>>>>
>>>>
>>>> --
>>>> Moscow.pm mailing list
>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>
>>>>
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>>>
>>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20140103/1e3411a4/attachment-0001.html>


Подробная информация о списке рассылки Moscow-pm