[Moscow.pm] Работа с Web::Scraper

Ср Ноя 9 05:19:42 PST 2011

9 ноября 2011 г. 17:09 пользователь Foxcool <foxcool333 на gmail.com> написал:

> On 11/09/2011 05:05 PM, Nikolay Mishin wrote:
>
>> А зачем такие сложности, можно, например HTML::TableExtract
>> использовать для того, чтобы вытащить любую таблицу
>>
>> https://gist.github.com/**1351359 <https://gist.github.com/1351359>
>>
>>
>> 09.11.2011, 15:34, "Alexey Shrub"<worldmind на mail.ru>:
>>
>>> On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:
>>>
>>>   Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого
>>>>  нынче вида Перл-джуниоров.
>>>>  Есть интересный модуль Web::Scraper, документацию которого я не нахожу
>>>>  избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
>>>>  Есть некая страница, которая полна таблиц, идущих друг за другом,
>>>> разных
>>>>  и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
>>>>  таблицы. И не с определенным id или class, а с значением другого
>>>> атрибута.
>>>>
>>>>  <tablewidth="100%"cellspacing=**"0"cellpadding="3"border="0">
>>>>  <tablewidth="100%"cellspacing=**"2"cellpadding="1">
>>>>
>>>>  Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
>>>>  указать это скраперу? Кстати, посоветуете другой инструмент, буду
>>>>  непротив. С небольшим модулем, который парсит регулярками разобрался
>>>>  быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь
>>>>  большим и стабильным инструментом для того, чтобы использовать его в
>>>>  чрезмерно важных задачах.
>>>>
>>> По мне так самый удобный (правда не самый быстрый), это XPath, только
>>> первым делом html нужно привести к xhtml, но это легко сделать с помощью
>>> утилиты tidy
>>> Тут есть пример
>>> https://github.com/worldmind/**simple-livejournal-backuper<https://github.com/worldmind/simple-livejournal-backuper>
>>>
>>> --
>>> Moscow.pm mailing list
>>> moscow-pm на pm.org | http://moscow.pm.org
>>>
>> --
>> Nikolay Mishin
>>
> Спасибо, присмотрюсь. С DOM у меня возникала проблема, что многоуровневый
> хеш имел слишком длинную и запутанную структуру в т.ч. с циклическими
> ссылками, если я хотел работать непосредственно с деревом, как например
> если применять на XML XML::LibXML::Simple. То есть работать с деревом, как
> с многоуровневым хешем удобно, если это хороший структурированный XML. А
> вот если это мутный HTML, возникают проблемы.
>
>
Ковырял в свое время Node.js в целях "пощупать".
Прекрасная вещь для работы с HTML (и не только HTML). Подключаешь jQuery и
вообще все хорошо.

-- 
С уважением
Михаил Шогин.
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20111109/0d877dd4/attachment.html>