<HTML><BODY><br>А еще селекторы можно подсмотреть в FireBug'е ...<br><br><br>Четверг, 19 декабря 2013, 16:20 +04:00 от Foxcool <foxcool333@gmail.com>:<br>
<blockquote style="border-left:1px solid #0857A6; margin:10px; padding:0 0 0 10px;">
        <div id="">
        



    






        

        
        
        
        
        

        

        
        



<div class="js-helper js-readmsg-msg">
        <style type="text/css"></style>
         
        <div id="style_13874556700000000130" class="mr_read__body">
                <base target="_self" href="https://e.mail.ru/">
                
                        <div id="style_13874556700000000130_BODY">
  
    
  
  
    <div class="moz-cite-prefix">19.12.2013 15:53, Харпалёв Иван пишет:<br>
    </div>
    <blockquote cite="mid:CAMxGQeR1_Ctm5ZCnMxhwwCR6y8uK_0Hmov+SLFBCYwaBp0r5Eg@mail.gmail.com" type="cite">
      <div dir="ltr">Спасибо! Очень много ссылок в тему!
        <div>Особенно понравился вариант с  Mojo, поскольку, кажется,
          что материал "для освоения" компактнее.</div>
        <div><br>
        </div>
        <div>Как понимаю, для того, чтобы нормально разбирать страницы,
          нужно освоиться с DOM, всякими селекторами и т.д.</div>
        <div>Такого бэкграунда мало(</div>
        <div>Как его почерпнуть? Может есть туториал из пары уроков, где
          парсинг и ликбезом?)</div>
        <div><br>
        </div>
        <div>Встал на путь истинный, спасибо!</div>
      </div>
      <div class="gmail_extra"><br>
        <br>
        <div class="gmail_quote">18 декабря 2013 г., 13:21 пользователь
          Анатолий Шарифулин <span dir="ltr"><<a moz-do-not-send="true" href="/compose/?mailto=mailto%3asharifulin@gmail.com" target="_blank">sharifulin@gmail.com</a>></span>
          написал:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0             .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <div dir="ltr">Да, на тестах сразу видно, когда парсер
              ломается, я иногда делаю так :)</div>
            <div class="gmail_extra">
              <div>
                <div class="h5"><br>
                  <br>
                  <div class="gmail_quote">2013/12/18 Eugene Toropov <span dir="ltr"><<a moz-do-not-send="true" href="/compose/?mailto=mailto%3aeugene.toropov@gmail.com" target="_blank">eugene.toropov@gmail.com</a>></span><br>
                    <blockquote class="gmail_quote" style="margin:0 0 0                       .8ex;border-left:1px #ccc solid;padding-left:1ex">Если
                      там реально несколько десятков страниц и смысл в
                      мониторинге, то можно вообще Test::Mojo и
                      проходить последовательно. Код выглядит как-то
                      так:<br>
                      <br>
                      $t->get_ok($t->tx->res->headers->location
                      )->status_is('200')->element_exists('td[style="border-right:1px
                      solid #A2C1D9;"]');<br>
                      <br>
                      $t->post_ok( $url => form => \%pay_form
                      )->status_is(302)->header_like(Location
                      => qr|^<a moz-do-not-send="true" href="http://partner.a1pay.ru/a1lite/selectType%7C" target="_blank">http://partner.a1pay.ru/a1lite/selectType|</a>);<br>
                      <br>
                      Евгений<br>
                      <div>
                        <div><br>
                          On Dec 18, 2013, at 12:59 PM, Ivan Petrov
                          wrote:<br>
                          <br>
                          >> Используйте Mojo::UserAgent с
                          Mojo::DOM и Mojo::JSON, и забудьте про все
                          ссылки<br>
                          ><br>
                          > если на производительность совсем уж
                          наплевать, то можно и Mojo::DOM с<br>
                          > Mojo::UserAgent<br>
                          ><br>
                          > --<br>
                          > Moscow.pm mailing list<br>
                          > <a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
                          <br>
                          --<br>
                          Moscow.pm mailing list<br>
                          <a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
                        </div>
                      </div>
                    </blockquote>
                  </div>
                  <br>
                  <br clear="all">
                  <div><br>
                  </div>
                </div>
              </div>
              <div class="im">-- <br>
                С уважением,<br>
                 Анатолий Шарифулин.
              </div>
            </div>
            <br>
            --<br>
            Moscow.pm mailing list<br>
            <a moz-do-not-send="true" href="/compose/?mailto=mailto%3amoscow%2dpm@pm.org" target="_blank">moscow-pm@pm.org</a>
            | <a moz-do-not-send="true" href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
            <br>
          </blockquote>
        </div>
        <br>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
    </blockquote>
    <br>
    <br>
    Я в свое время неплохо освоился с Web::Scraper. Это вроде не такое
    тормозное решение, как с моджо. Однако понадобится работать  с
    селекторами. А селекторы - несложная тема. Берем и смотрим от той же
    моджи доку: <a class="moz-txt-link-freetext" href="http://mojolicio.us/perldoc/Mojo/DOM/CSS" target="_blank">http://mojolicio.us/perldoc/Mojo/DOM/CSS</a><br>
    И по таким же селекторам можно ловить содержимое вебскрапером.
    Правда там необычный (вроде декларативный) интерфейс и поначалу
    немного ломает мозг, но как только вкуриваешь, то сразу же парсинг
    решулярками или еще какой изврат больше не потянет к себе. Ну а
    селекторы по теблице берешь и копируешь, какой надо. Тут достаточно
    иметь представление об html и css<br>
    <br>
    <pre class="moz-signature" cols="72">-- 
<a class="moz-txt-link-freetext" href="http://foxcool.ru" target="_blank">http://foxcool.ru</a>
<a class="moz-txt-link-abbreviated" href="/compose/?mailto=mailto%3afoxcool@jabber.ru" target="_blank">foxcool@jabber.ru</a><br data-mce-bogus="1"></pre>
  


</div>
                        <div>-- <br>
Moscow.pm mailing list<br>
<a href="sentmsg?compose&To=moscow%2dpm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</div>
                
                <base target="_self" href="https://e.mail.ru/">
        </div>

        
</div>


</div>
</blockquote>
<br>
<br>-- <br>Илья Винокуров<br></BODY></HTML>