[SP-pm] Scrapy - Python Web Crawler

Stanislaw Pusep creaktive at gmail.com
Tue Apr 24 08:23:46 PDT 2012


Só uma observação: Scrapy, além de processar a árvore HTML, também gerencia
a fila de downloads, extração de links, validação de robots.txt... Enfim, é
um framework completo.
No CPAN tem https://metacpan.org/module/Scrappy; mas, pelos meus testes, é
lento demais (para as minhas necessidades). Aliás, reza a lenda que ele
usa Parallel::ForkManager, o que, infelizmente, não é verdade (é uma
dependência morta :(

ABS()



On Tue, Apr 24, 2012 at 12:12, Daniel de Oliveira Mantovani <
daniel.oliveira.mantovani em gmail.com> wrote:

> Bom dia,
>
> Achei um framework para Web Crawling muito interessante escrito em Python,
> http://doc.scrapy.org/en/latest/intro/tutorial.html
>
> Sim, 'e claro que exsite uma solucao muito bem implementada em Perl,
> estavel e testada:
> https://metacpan.org/module/Web::Scraper
> O meu ponto 'e simples, eu estava lendo a minha cota de artigos
> aleatorios do dia quando encontrei-o em um blog desconhecido:
> http://isbullsh.it/2012/04/Web-crawling-with-scrapy/
>
> Eu sei que existem centenas de milhares de artigos sobre coisas em Perl,
> https://www.google.com.br/search?sourceid=chrome&ie=UTF-8&q=perl+blogs
>
> E um artigo muito melhor sobre Web::Scraper,
> http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
>
> Conclusao, se existe algo bom implementado em outra linguagem procure no
> CPAN.
>
>
> --
> "If you’ve never written anything thoughtful, then you’ve never had
> any difficult, important, or interesting thoughts. That’s the secret:
> people who don’t write, are people who don’t think."
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20120424/930834fa/attachment.html>


More information about the SaoPaulo-pm mailing list