[SP-pm] Scrapy - Python Web Crawler

Daniel de Oliveira Mantovani daniel.oliveira.mantovani at gmail.com
Tue Apr 24 08:35:33 PDT 2012


(Stanislaw Pusep)++
Eu nao tinha me aprofundado no assunto,
http://doc.scrapy.org/en/latest/topics/architecture.html



2012/4/24 Stanislaw Pusep <creaktive em gmail.com>:
> Só uma observação: Scrapy, além de processar a árvore HTML, também gerencia
> a fila de downloads, extração de links, validação de robots.txt... Enfim, é
> um framework completo.
> No CPAN tem https://metacpan.org/module/Scrappy; mas, pelos meus testes, é
> lento demais (para as minhas necessidades). Aliás, reza a lenda que ele
> usa Parallel::ForkManager, o que, infelizmente, não é verdade (é uma
> dependência morta :(
>
> ABS()
>
>
>
> On Tue, Apr 24, 2012 at 12:12, Daniel de Oliveira Mantovani
> <daniel.oliveira.mantovani em gmail.com> wrote:
>>
>> Bom dia,
>>
>> Achei um framework para Web Crawling muito interessante escrito em Python,
>> http://doc.scrapy.org/en/latest/intro/tutorial.html
>>
>> Sim, 'e claro que exsite uma solucao muito bem implementada em Perl,
>> estavel e testada:
>> https://metacpan.org/module/Web::Scraper
>> O meu ponto 'e simples, eu estava lendo a minha cota de artigos
>> aleatorios do dia quando encontrei-o em um blog desconhecido:
>> http://isbullsh.it/2012/04/Web-crawling-with-scrapy/
>>
>> Eu sei que existem centenas de milhares de artigos sobre coisas em Perl,
>> https://www.google.com.br/search?sourceid=chrome&ie=UTF-8&q=perl+blogs
>>
>> E um artigo muito melhor sobre Web::Scraper,
>> http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
>>
>> Conclusao, se existe algo bom implementado em outra linguagem procure no
>> CPAN.
>>
>>
>> --
>> "If you’ve never written anything thoughtful, then you’ve never had
>> any difficult, important, or interesting thoughts. That’s the secret:
>> people who don’t write, are people who don’t think."
>> =begin disclaimer
>>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>
>
>
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>



-- 
"If you’ve never written anything thoughtful, then you’ve never had
any difficult, important, or interesting thoughts. That’s the secret:
people who don’t write, are people who don’t think."


More information about the SaoPaulo-pm mailing list