<HTML><BODY><br>А еще селекторы можно подсмотреть в FireBug'е ...<br><br><br>Четверг, 19 декабря 2013, 16:20 +04:00 от Foxcool <foxcool333@gmail.com>:<br>
<blockquote style="border-left:1px solid #0857A6; margin:10px; padding:0 0 0 10px;">
<div id="">
<div class="js-helper js-readmsg-msg">
<style type="text/css"></style>
<div id="style_13874556700000000130" class="mr_read__body">
<base target="_self" href="https://e.mail.ru/">
<div id="style_13874556700000000130_BODY">
<div class="moz-cite-prefix">19.12.2013 15:53, Харпалёв Иван пишет:<br>
</div>
<blockquote cite="mid:CAMxGQeR1_Ctm5ZCnMxhwwCR6y8uK_0Hmov+SLFBCYwaBp0r5Eg@mail.gmail.com" type="cite">
<div dir="ltr">Спасибо! Очень много ссылок в тему!
<div>Особенно понравился вариант с Mojo, поскольку, кажется,
что материал "для освоения" компактнее.</div>
<div><br>
</div>
<div>Как понимаю, для того, чтобы нормально разбирать страницы,
нужно освоиться с DOM, всякими селекторами и т.д.</div>
<div>Такого бэкграунда мало(</div>
<div>Как его почерпнуть? Может есть туториал из пары уроков, где
парсинг и ликбезом?)</div>
<div><br>
</div>
<div>Встал на путь истинный, спасибо!</div>
</div>
<div class="gmail_extra"><br>
<br>
<div class="gmail_quote">18 декабря 2013 г., 13:21 пользователь
Анатолий Шарифулин <span dir="ltr"><<a moz-do-not-send="true" href="/compose/?mailto=mailto%3asharifulin@gmail.com" target="_blank">sharifulin@gmail.com</a>></span>
написал:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr">Да, на тестах сразу видно, когда парсер
ломается, я иногда делаю так :)</div>
<div class="gmail_extra">
<div>
<div class="h5"><br>
<br>
<div class="gmail_quote">2013/12/18 Eugene Toropov <span dir="ltr"><<a moz-do-not-send="true" href="/compose/?mailto=mailto%3aeugene.toropov@gmail.com" target="_blank">eugene.toropov@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Если
там реально несколько десятков страниц и смысл в
мониторинге, то можно вообще Test::Mojo и
проходить последовательно. Код выглядит как-то
так:<br>
<br>
$t->get_ok($t->tx->res->headers->location
)->status_is('200')->element_exists('td[style="border-right:1px
solid #A2C1D9;"]');<br>
<br>
$t->post_ok( $url => form => \%pay_form
)->status_is(302)->header_like(Location
=> qr|^<a moz-do-not-send="true" href="http://partner.a1pay.ru/a1lite/selectType%7C" target="_blank">http://partner.a1pay.ru/a1lite/selectType|</a>);<br>
<br>
Евгений<br>
<div>
<div><br>
On Dec 18, 2013, at 12:59 PM, Ivan Petrov
wrote:<br>
<br>
>> Используйте Mojo::UserAgent с
Mojo::DOM и Mojo::JSON, и забудьте про все
ссылки<br>
><br>
> если на производительность совсем уж
наплевать, то можно и Mojo::DOM с<br>
> Mojo::UserAgent<br>
><br>
> --<br>
> Moscow.pm mailing list<br>
> <a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br>
--<br>
Moscow.pm mailing list<br>
<a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div>
</div>
</blockquote>
</div>
<br>
<br clear="all">
<div><br>
</div>
</div>
</div>
<div class="im">-- <br>
С уважением,<br>
Анатолий Шарифулин.
</div>
</div>
<br>
--<br>
Moscow.pm mailing list<br>
<a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a>
| <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br>
</blockquote>
</div>
<br>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
</blockquote>
<br>
<br>
Я в свое время неплохо освоился с Web::Scraper. Это вроде не такое
тормозное решение, как с моджо. Однако понадобится работать с
селекторами. А селекторы - несложная тема. Берем и смотрим от той же
моджи доку: <a class="moz-txt-link-freetext" href="http://mojolicio.us/perldoc/Mojo/DOM/CSS" target="_blank">http://mojolicio.us/perldoc/Mojo/DOM/CSS</a><br>
И по таким же селекторам можно ловить содержимое вебскрапером.
Правда там необычный (вроде декларативный) интерфейс и поначалу
немного ломает мозг, но как только вкуриваешь, то сразу же парсинг
решулярками или еще какой изврат больше не потянет к себе. Ну а
селекторы по теблице берешь и копируешь, какой надо. Тут достаточно
иметь представление об html и css<br>
<br>
<pre class="moz-signature" cols="72">--
<a class="moz-txt-link-freetext" href="http://foxcool.ru" target="_blank">http://foxcool.ru</a>
<a class="moz-txt-link-abbreviated" href="/compose/?mailto=mailto%3afoxcool@jabber.ru" target="_blank">foxcool@jabber.ru</a><br data-mce-bogus="1"></pre>
</div>
<div>-- <br>
Moscow.pm mailing list<br>
<a href="sentmsg?compose&To=moscow%2dpm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div>
<base target="_self" href="https://e.mail.ru/">
</div>
</div>
</div>
</blockquote>
<br>
<br>-- <br>Илья Винокуров<br></BODY></HTML>