[Moscow.pm] Работа с Web::Scraper

Alexey Shrub worldmind на mail.ru
Ср Ноя 9 03:34:56 PST 2011


On Ср., 2011-11-09 at 13:36 +0400, Foxcool wrote:
> Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого 
> нынче вида Перл-джуниоров.
> Есть интересный модуль Web::Scraper, документацию которого я не нахожу 
> избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
> Есть некая страница, которая полна таблиц, идущих друг за другом, разных 
> и т.д. Первая проблема, с которой я столкнулся: мне нужны определенные 
> таблицы. И не с определенным id или class, а с значением другого атрибута.
> 
> <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
> <tablewidth="100%"cellspacing="2"cellpadding="1">
> 
> 
> Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне 
> указать это скраперу? Кстати, посоветуете другой инструмент, буду 
> непротив. С небольшим модулем, который парсит регулярками разобрался 
> быстро и доволен его работой, но хотелось бы разобраться с каким-нибудь 
> большим и стабильным инструментом для того, чтобы использовать его в 
> чрезмерно важных задачах.

По мне так самый удобный (правда не самый быстрый), это XPath, только
первым делом html нужно привести к xhtml, но это легко сделать с помощью
утилиты tidy
Тут есть пример
https://github.com/worldmind/simple-livejournal-backuper



Подробная информация о списке рассылки Moscow-pm