[Moscow.pm] Как парсить сайты?

Харпалёв Иван ivan.kharpalev на gmail.com
Пт Янв 3 05:08:51 PST 2014


Господа! Спасибо, очень помогло!
Разобрался, как получать документы и искать в них нужное через DOM и
селекторы.

Но Беда!!
Как быть, если контент формируется динамически в броузере?? (по событиям
исполняется js и в результате этого возникают целевые элементы dom)


Хотя бы как быть со страницами, которые по onLoad() за некоторое время
формируются?

А глобальный вопрос в свете этого ----
Есть ли броузер с api из Perl?
чтобы было можно возбуждать события, читать писать переменные.

Спасибо!


25 декабря 2013 г., 16:12 пользователь Харпалёв Иван <
ivan.kharpalev на gmail.com> написал:

> Спасибо, очень хороший материал про XPath!! один раз прочесть и ясность)
>
>
> 20 декабря 2013 г., 16:16 пользователь Stanislaw Pusep <
> creaktive на gmail.com> написал:
>
> Приличный материал про селекторы типа XPath:
>> http://zvon.org/comp/r/tut-XPath_1.html
>>
>>
>> 2013/12/19 Харпалёв Иван <ivan.kharpalev на gmail.com>
>>
>>> Спасибо! Очень много ссылок в тему!
>>> Особенно понравился вариант с  Mojo, поскольку, кажется, что материал
>>> "для освоения" компактнее.
>>>
>>> Как понимаю, для того, чтобы нормально разбирать страницы, нужно
>>> освоиться с DOM, всякими селекторами и т.д.
>>> Такого бэкграунда мало(
>>> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
>>> ликбезом?)
>>>
>>> Встал на путь истинный, спасибо!
>>>
>>>
>>> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
>>> sharifulin на gmail.com> написал:
>>>
>>> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>>>>
>>>>
>>>> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>>>>
>>>>> Если там реально несколько десятков страниц и смысл в мониторинге, то
>>>>> можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>>>>> так:
>>>>>
>>>>> $t->get_ok($t->tx->res->headers->location
>>>>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>>>>> #A2C1D9;"]');
>>>>>
>>>>> $t->post_ok( $url => form => \%pay_form
>>>>> )->status_is(302)->header_like(Location => qr|^
>>>>> http://partner.a1pay.ru/a1lite/selectType|);
>>>>>
>>>>> Евгений
>>>>>
>>>>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>>>>
>>>>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте
>>>>> про все ссылки
>>>>> >
>>>>> > если на производительность совсем уж наплевать, то можно и Mojo::DOM
>>>>> с
>>>>> > Mojo::UserAgent
>>>>> >
>>>>> > --
>>>>> > Moscow.pm mailing list
>>>>> > moscow-pm на pm.org | http://moscow.pm.org
>>>>>
>>>>> --
>>>>> Moscow.pm mailing list
>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>
>>>>
>>>>
>>>>
>>>> --
>>>> С уважением,
>>>>  Анатолий Шарифулин.
>>>>
>>>> --
>>>> Moscow.pm mailing list
>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>
>>>>
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>>>
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>>
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20140103/75d1f59f/attachment.html>


Подробная информация о списке рассылки Moscow-pm