<br><br><div class="gmail_quote">9 ноября 2011 г. 17:09 пользователь Foxcool <span dir="ltr"><<a href="mailto:foxcool333@gmail.com">foxcool333@gmail.com</a>></span> написал:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="HOEnZb"><div class="h5">On 11/09/2011 05:05 PM, Nikolay Mishin wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
А зачем такие сложности, можно, например HTML::TableExtract<br>
использовать для того, чтобы вытащить любую таблицу<br>
<br>
<a href="https://gist.github.com/1351359" target="_blank">https://gist.github.com/<u></u>1351359</a><br>
<br>
<br>
09.11.2011, 15:34, "Alexey Shrub"<<a href="mailto:worldmind@mail.ru" target="_blank">worldmind@mail.ru</a>>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого<br>
  нынче вида Перл-джуниоров.<br>
  Есть интересный модуль Web::Scraper, документацию которого я не нахожу<br>
  избыточной, т.к. не могу разобраться, как его "натравливать" на теги.<br>
  Есть некая страница, которая полна таблиц, идущих друг за другом, разных<br>
  и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные<br>
  таблицы. И не с определенным id или class, а с значением другого атрибута.<br>
<br>
  <tablewidth="100%"cellspacing=<u></u>"0"cellpadding="3"border="0"><br>
  <tablewidth="100%"cellspacing=<u></u>"2"cellpadding="1"><br>
<br>
  Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне<br>
  указать это скраперу? Кстати, посоветуете другой инструмент, буду<br>
  непротив. С небольшим модулем, который парсит регулярками разобрался<br>
  быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь<br>
  большим и стабильным инструментом для того, чтобы использовать его в<br>
  чрезмерно важных задачах.<br>
</blockquote>
По мне так самый удобный (правда не самый быстрый), это XPath, только<br>
первым делом html нужно привести к xhtml, но это легко сделать с помощью<br>
утилиты tidy<br>
Тут есть пример<br>
<a href="https://github.com/worldmind/simple-livejournal-backuper" target="_blank">https://github.com/worldmind/<u></u>simple-livejournal-backuper</a><br>
<br>
--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org" target="_blank">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
</blockquote>
--<br>
Nikolay Mishin<br>
</blockquote></div></div>
Спасибо, присмотрюсь. С DOM у меня возникала проблема, что многоуровневый хеш имел слишком длинную и запутанную структуру в т.ч. с циклическими ссылками, если я хотел работать непосредственно с деревом, как например если применять на XML XML::LibXML::Simple. То есть работать с деревом, как с многоуровневым хешем удобно, если это хороший структурированный XML. А вот если это мутный HTML, возникают проблемы.<div class="HOEnZb">
<div class="h5"><br></div></div></blockquote><br>Ковырял в свое время Node.js в целях "пощупать".<br>Прекрасная вещь для работы с HTML (и не только HTML). Подключаешь jQuery и вообще все хорошо.<br><br></div>-- <br>
С уважением<br>Михаил Шогин.<br><br>