[Moscow.pm] Работа с Web::Scraper

Ср Ноя 9 05:09:29 PST 2011

On 11/09/2011 05:05 PM, Nikolay Mishin wrote:
> А зачем такие сложности, можно, например HTML::TableExtract
> использовать для того, чтобы вытащить любую таблицу
>
> https://gist.github.com/1351359
>
>
> 09.11.2011, 15:34, "Alexey Shrub"<worldmind на mail.ru>:
>> On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:
>>
>>>   Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого
>>>   нынче вида Перл-джуниоров.
>>>   Есть интересный модуль Web::Scraper, документацию которого я не нахожу
>>>   избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
>>>   Есть некая страница, которая полна таблиц, идущих друг за другом, разных
>>>   и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
>>>   таблицы. И не с определенным id или class, а с значением другого атрибута.
>>>
>>>   <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
>>>   <tablewidth="100%"cellspacing="2"cellpadding="1">
>>>
>>>   Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
>>>   указать это скраперу? Кстати, посоветуете другой инструмент, буду
>>>   непротив. С небольшим модулем, который парсит регулярками разобрался
>>>   быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь
>>>   большим и стабильным инструментом для того, чтобы использовать его в
>>>   чрезмерно важных задачах.
>> По мне так самый удобный (правда не самый быстрый), это XPath, только
>> первым делом html нужно привести к xhtml, но это легко сделать с помощью
>> утилиты tidy
>> Тут есть пример
>> https://github.com/worldmind/simple-livejournal-backuper
>>
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
> --
> Nikolay Mishin
Спасибо, присмотрюсь. С DOM у меня возникала проблема, что 
многоуровневый хеш имел слишком длинную и запутанную структуру в т.ч. с 
циклическими ссылками, если я хотел работать непосредственно с деревом, 
как например если применять на XML XML::LibXML::Simple. То есть работать 
с деревом, как с многоуровневым хешем удобно, если это хороший 
структурированный XML. А вот если это мутный HTML, возникают проблемы.