[Moscow.pm] Работа с Web::Scraper

Nikolay Mishin mi на ya.ru
Ср Ноя 9 05:05:16 PST 2011


А зачем такие сложности, можно, например HTML::TableExtract
использовать для того, чтобы вытащить любую таблицу

https://gist.github.com/1351359


09.11.2011, 15:34, "Alexey Shrub" <worldmind на mail.ru>:
> On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:
>
>>  Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого
>>  нынче вида Перл-джуниоров.
>>  Есть интересный модуль Web::Scraper, документацию которого я не нахожу
>>  избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
>>  Есть некая страница, которая полна таблиц, идущих друг за другом, разных
>>  и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
>>  таблицы. И не с определенным id или class, а с значением другого атрибута.
>>
>>  <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
>>  <tablewidth="100%"cellspacing="2"cellpadding="1">
>>
>>  Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
>>  указать это скраперу? Кстати, посоветуете другой инструмент, буду
>>  непротив. С небольшим модулем, который парсит регулярками разобрался
>>  быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь
>>  большим и стабильным инструментом для того, чтобы использовать его в
>>  чрезмерно важных задачах.
>
> По мне так самый удобный (правда не самый быстрый), это XPath, только
> первым делом html нужно привести к xhtml, но это легко сделать с помощью
> утилиты tidy
> Тут есть пример
> https://github.com/worldmind/simple-livejournal-backuper
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org

--
Nikolay Mishin


Подробная информация о списке рассылки Moscow-pm