[Moscow.pm] Работа с Web::Scraper

Ср Ноя 9 01:57:53 PST 2011

Коллега очень хвалил Scrapy
http://scrapy.org/
Хм. По поиску даже две статьи выплыли на хабре про него
http://habrahabr.ru/blogs/python/115710/
http://habrahabr.ru/qa/5103/

В инете встречал добрые слова про BeautifulSoup
http://www.crummy.com/software/BeautifulSoup/
и про html5lib
http://code.google.com/p/html5lib/

9 ноября 2011 г. 13:36 пользователь Foxcool <foxcool333 на gmail.com> написал:
> Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого нынче
> вида Перл-джуниоров.
> Есть интересный модуль Web::Scraper, документацию которого я не нахожу
> избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
> Есть некая страница, которая полна таблиц, идущих друг за другом, разных и
> т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
> таблицы. И не с определенным id или class, а с значением другого атрибута.
>
> <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
> <tablewidth="100%"cellspacing="2"cellpadding="1">
>
>
> Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
> указать это скраперу? Кстати, посоветуете другой инструмент, буду непротив.
> С небольшим модулем, который парсит регулярками разобрался быстро и доволен
> его работой, но хотелось бы разобраться с каким-нибудь большим и стабильным
> инструментом для того, чтобы использовать его в чрезмерно важных задачах.
>
>
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>