[Moscow.pm] Работа с Web::Scraper

Dmitry Arsentiev dmarsentev на gmail.com
Ср Ноя 9 03:05:51 PST 2011


> Мне кажется или все же это библиотеки для python ?

Да, на питоне.
Хотя БьютифлСуп, если мне память не изменяет, есть много на чём.

Я подумал, что человеку, задавшему вопрос, надо во-первых ехать,
во-вторых - шашечки (perl).

Я  напомню на всякий случай,
что этот список рассылки поддерживается питоновским MailMan-ом.


9 ноября 2011 г. 14:48 пользователь Sergiy Borodych
<sergiy.borodych на gmail.com> написал:
> 2011/11/9 Dmitry Arsentiev <dmarsentev на gmail.com>:
>> Коллега очень хвалил Scrapy
>> http://scrapy.org/
>> Хм. По поиску даже две статьи выплыли на хабре про него
>> http://habrahabr.ru/blogs/python/115710/
>> http://habrahabr.ru/qa/5103/
>>
>> В инете встречал добрые слова про BeautifulSoup
>> http://www.crummy.com/software/BeautifulSoup/
>> и про html5lib
>> http://code.google.com/p/html5lib/
>
> Мне кажется или все же это библиотеки для python ?
>
>> 9 ноября 2011 г. 13:36 пользователь Foxcool <foxcool333 на gmail.com> написал:
>>> Заранее извиняюсь, возможно, за тривиальные вопросы, т.к. я из редкого нынче
>>> вида Перл-джуниоров.
>>> Есть интересный модуль Web::Scraper, документацию которого я не нахожу
>>> избыточной, т.к. не могу разобраться, как его "натравливать" на теги.
>>> Есть некая страница, которая полна таблиц, идущих друг за другом, разных и
>>> т.д. Первая проблема, с которой я столкнулся: мне нужны определенные
>>> таблицы. И не с определенным id или class, а с значением другого атрибута.
>>>
>>> <tablewidth="100%"cellspacing="0"cellpadding="3"border="0">
>>> <tablewidth="100%"cellspacing="2"cellpadding="1">
>>>
>>>
>>> Например, cellspacing="2", или cellpadding="1", или даже оба. Как мне
>>> указать это скраперу? Кстати, посоветуете другой инструмент, буду непротив.
>>> С небольшим модулем, который парсит регулярками разобрался быстро и доволен
>>> его работой, но хотелось бы разобраться с каким-нибудь большим и стабильным
>>> инструментом для того, чтобы использовать его в чрезмерно важных задачах.
>>>
>>>
>
> --
> Sergiy Borodych
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>


Подробная информация о списке рассылки Moscow-pm