[Moscow.pm] Как парсить сайты?

Andrei Lukovenko aluck на cordeo.ru
Пт Янв 3 05:25:15 PST 2014


Кто-нибудь пробовал, насколько оно стабильно/секьюрно?..


3 января 2014 г., 17:18 пользователь Akzhan Abdulin <
akzhan.abdulin на gmail.com> написал:

> https://metacpan.org/pod/WWW::WebKit
>
>
> 3 января 2014 г., 17:08 пользователь Харпалёв Иван <
> ivan.kharpalev на gmail.com> написал:
>
> Господа! Спасибо, очень помогло!
>> Разобрался, как получать документы и искать в них нужное через DOM и
>> селекторы.
>>
>> Но Беда!!
>> Как быть, если контент формируется динамически в броузере?? (по событиям
>> исполняется js и в результате этого возникают целевые элементы dom)
>>
>>
>> Хотя бы как быть со страницами, которые по onLoad() за некоторое время
>> формируются?
>>
>> А глобальный вопрос в свете этого ----
>> Есть ли броузер с api из Perl?
>> чтобы было можно возбуждать события, читать писать переменные.
>>
>> Спасибо!
>>
>>
>> 25 декабря 2013 г., 16:12 пользователь Харпалёв Иван <
>> ivan.kharpalev на gmail.com> написал:
>>
>> Спасибо, очень хороший материал про XPath!! один раз прочесть и ясность)
>>>
>>>
>>> 20 декабря 2013 г., 16:16 пользователь Stanislaw Pusep <
>>> creaktive на gmail.com> написал:
>>>
>>> Приличный материал про селекторы типа XPath:
>>>> http://zvon.org/comp/r/tut-XPath_1.html
>>>>
>>>>
>>>> 2013/12/19 Харпалёв Иван <ivan.kharpalev на gmail.com>
>>>>
>>>>> Спасибо! Очень много ссылок в тему!
>>>>> Особенно понравился вариант с  Mojo, поскольку, кажется, что материал
>>>>> "для освоения" компактнее.
>>>>>
>>>>> Как понимаю, для того, чтобы нормально разбирать страницы, нужно
>>>>> освоиться с DOM, всякими селекторами и т.д.
>>>>> Такого бэкграунда мало(
>>>>> Как его почерпнуть? Может есть туториал из пары уроков, где парсинг и
>>>>> ликбезом?)
>>>>>
>>>>> Встал на путь истинный, спасибо!
>>>>>
>>>>>
>>>>> 18 декабря 2013 г., 13:21 пользователь Анатолий Шарифулин <
>>>>> sharifulin на gmail.com> написал:
>>>>>
>>>>> Да, на тестах сразу видно, когда парсер ломается, я иногда делаю так :)
>>>>>>
>>>>>>
>>>>>> 2013/12/18 Eugene Toropov <eugene.toropov на gmail.com>
>>>>>>
>>>>>>> Если там реально несколько десятков страниц и смысл в мониторинге,
>>>>>>> то можно вообще Test::Mojo и проходить последовательно. Код выглядит как-то
>>>>>>> так:
>>>>>>>
>>>>>>> $t->get_ok($t->tx->res->headers->location
>>>>>>> )->status_is('200')->element_exists('td[style="border-right:1px solid
>>>>>>> #A2C1D9;"]');
>>>>>>>
>>>>>>> $t->post_ok( $url => form => \%pay_form
>>>>>>> )->status_is(302)->header_like(Location => qr|^
>>>>>>> http://partner.a1pay.ru/a1lite/selectType|);
>>>>>>>
>>>>>>> Евгений
>>>>>>>
>>>>>>> On Dec 18, 2013, at 12:59 PM, Ivan Petrov wrote:
>>>>>>>
>>>>>>> >> Используйте Mojo::UserAgent с Mojo::DOM и Mojo::JSON, и забудьте
>>>>>>> про все ссылки
>>>>>>> >
>>>>>>> > если на производительность совсем уж наплевать, то можно и
>>>>>>> Mojo::DOM с
>>>>>>> > Mojo::UserAgent
>>>>>>> >
>>>>>>> > --
>>>>>>> > Moscow.pm mailing list
>>>>>>> > moscow-pm на pm.org | http://moscow.pm.org
>>>>>>>
>>>>>>> --
>>>>>>> Moscow.pm mailing list
>>>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>>>
>>>>>>
>>>>>>
>>>>>>
>>>>>> --
>>>>>> С уважением,
>>>>>>  Анатолий Шарифулин.
>>>>>>
>>>>>> --
>>>>>> Moscow.pm mailing list
>>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>>
>>>>>>
>>>>>
>>>>> --
>>>>> Moscow.pm mailing list
>>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>>
>>>>>
>>>>
>>>> --
>>>> Moscow.pm mailing list
>>>> moscow-pm на pm.org | http://moscow.pm.org
>>>>
>>>>
>>>
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
>>
>>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>


-- 
Best regards, Andrei
+7-937-847-60-74
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20140103/629439ee/attachment.html>


Подробная информация о списке рассылки Moscow-pm