<br><br><div class="gmail_quote">9 ноября 2011 г. 17:09 пользователь Foxcool <span dir="ltr"><<a href="mailto:foxcool333@gmail.com">foxcool333@gmail.com</a>></span> написал:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

<div class="HOEnZb"><div class="h5">On 11/09/2011 05:05 PM, Nikolay Mishin wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

А зачем такие сложности, можно, например HTML::TableExtract<br>

использовать для того, чтобы вытащить любую таблицу<br>

<br>

<a href="https://gist.github.com/1351359" target="_blank">https://gist.github.com/<u></u>1351359</a><br>

<br>

<br>

09.11.2011, 15:34, "Alexey Shrub"<<a href="mailto:worldmind@mail.ru" target="_blank">worldmind@mail.ru</a>>:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:<br>

<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

  Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого<br>

  нынче вида Перл-джуниоров.<br>

  Есть интересный модуль Web::Scraper, документацию которого я не нахожу<br>

  избыточной, т.к. не могу разобраться, как его "натравливать" на теги.<br>

  Есть некая страница, которая полна таблиц, идущих друг за другом, разных<br>

  и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные<br>

  таблицы. И не с определенным id или class, а с значением другого атрибута.<br>

<br>

  <tablewidth="100%"cellspacing=<u></u>"0"cellpadding="3"border="0"><br>

  <tablewidth="100%"cellspacing=<u></u>"2"cellpadding="1"><br>

<br>

  Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне<br>

  указать это скраперу? Кстати, посоветуете другой инструмент, буду<br>

  непротив. С небольшим модулем, который парсит регулярками разобрался<br>

  быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь<br>

  большим и стабильным инструментом для того, чтобы использовать его в<br>

  чрезмерно важных задачах.<br>

</blockquote>

По мне так самый удобный (правда не самый быстрый), это XPath, только<br>

первым делом html нужно привести к xhtml, но это легко сделать с помощью<br>

утилиты tidy<br>

Тут есть пример<br>

<a href="https://github.com/worldmind/simple-livejournal-backuper" target="_blank">https://github.com/worldmind/<u></u>simple-livejournal-backuper</a><br>

<br>

--<br>

Moscow.pm mailing list<br>

<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>

</blockquote>

--<br>

Nikolay Mishin<br>

</blockquote></div></div>

Спасибо, присмотрюсь. С DOM у меня возникала проблема, что многоуровневый хеш имел слишком длинную и запутанную структуру в т.ч. с циклическими ссылками, если я хотел работать непосредственно с деревом, как например если применять на XML XML::LibXML::Simple. То есть работать с деревом, как с многоуровневым хешем удобно, если это хороший структурированный XML. А вот если это мутный HTML, возникают проблемы.<div class="HOEnZb">

<div class="h5"><br></div></div></blockquote><br>Ковырял в свое время Node.js в целях "пощупать".<br>Прекрасная вещь для работы с HTML (и не только HTML). Подключаешь jQuery и вообще все хорошо.<br><br></div>-- <br>

С уважением<br>Михаил Шогин.<br><br>