[Moscow.pm] Работа с Web::Scraper

Sergiy Borodych sergiy.borodych на gmail.com
Ср Ноя 9 02:48:23 PST 2011


2011/11/9 Dmitry Arsentiev <dmarsentev на gmail.com>:
> Коллега очень хвалил Scrapy
> http://scrapy.org/
> Хм. По поиску даже две статьи выплыли на хабре про него
> http://habrahabr.ru/blogs/python/115710/
> http://habrahabr.ru/qa/5103/
>
> В инете встречал добрые слова про BeautifulSoup
> http://www.crummy.com/software/BeautifulSoup/
> и про html5lib
> http://code.google.com/p/html5lib/

Мне кажется или все же это библиотеки для python ?

> 9 ноября 2011 г. 13:36 пользователь Foxcool <foxcool333 на gmail.com> написал:
>> Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого нынче
>> вида Перл-джуниоров.
>> Есть интересный модуль Web::Scraper, документацию которого я не нахожу
>> избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
>> Есть некая страница, которая полна таблиц, идущих друг за другом, разных и
>> т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
>> таблицы. И не с определенным id или class, а с значением другого атрибута.
>>
>> <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
>> <tablewidth="100%"cellspacing="2"cellpadding="1">
>>
>>
>> Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
>> указать это скраперу? Кстати, посоветуете другой инструмент, буду непротив.
>> С небольшим модулем, который парсит регулярками разобрался быстро и доволен
>> его работой, но хотелось бы разобраться с каким-нибудь большим и стабильным
>> инструментом для того, чтобы использовать его в чрезмерно важных задачах.
>>
>>

-- 
Sergiy Borodych


Подробная информация о списке рассылки Moscow-pm