[Cascavel-pm] webcrawler (ou spider) com Perl

Joenio Marques joenio em gmail.com
Segunda Agosto 1 10:52:53 PDT 2005


Em 01/08/05, Alceu R. de Freitas Jr.<glasswalk3r em yahoo.com.br> escreveu:
> 
> --- Joenio Marques <joenio em gmail.com> escreveu:
> 
> > Tenho trabalhado com isso ultimamente (spider) e até
> > o momento tenho usado principalmente o LWP aliado as
> > expresoes regulares.
> 
> É preciso ter cuidado com REGEX... se mudarem o layout
> do site, você pode ficar na mão.
> 

Isso tem sido a minha principal ocupacao ha algum tempo.
Por isso tenho pesquisado algo que me livre de ficar
fazendo mutenção em spiders constantemente.
Mas ainda nao consegui vizualizar uma forma elegante
de fazer isso. Pois tenho que pegar uma informacao especifica
no site, por exemplo: pegar o preco de um produto tal numa
loja qquer.. vou estudar mais esse modulos citados.

> > As vezes pesquiso outras maneiras de fazer isso para
> > ter metodos
> > alternativos. Como por exemplo fazer um parser no
> > HTML utilizando
> > HTML::TreeBuilder ao inves de utilizar apenas regex.
> 
> HTML::Parser
> HTML::TokeParser
> HTML::LinkExtor
> 
> também são interessantes.
> 
> > Eu tambem nao conheco muitas fontes sobre o assunto.
> > recentemente encontrei um ebook da OReilly chamado
> >Spidering Hacks que traz muitas dicas sobre o
> assunto.
> 
> Aqui vai um exemplo prático que fiz:
> http://nau.sourceforge.net
> 
> Eu uso basicamente REGEX... o dia que a Symantec mudar
> o site eu rescrevo para usar HTML::Parser ou
> HTML::TokeParser. :-D
> 
> > Utilizo Perl da ActiveState sob windows para essas
> > tarefas. Mas as vezes fico meio limitado por nao
> >encontrar alguns modulos interessantes no repositorio
> >da ActiveState.
> 
> Acho que isso é devido ao fato que existe uma
> quantidade menor de monges (?) usando Windows... e cá
> entre nós, compilar algo no Windows é um saco...
> 
> Aqui vai mais uns repositórios para você adicionar:
> http://aspn.activestate.com/ASPN/docs/ActivePerl/5.8/faq/ActivePerl-faq2.html#repositories
> 

obrigado!

> Cá entre nós, não sei porque isso já não é feito por
> padrão na instalação do Active Perl. :-)
> 
> []'s
> 

Grato,
Joenio Marques


Mais detalhes sobre a lista de discussão Cascavel-pm