[Cascavel-pm] Extrair conteudo de html usando modulo

wendel wendel em dotpix.com.br
Sábado Setembro 24 13:15:57 PDT 2005


Luis Campos de Carvalho wrote:

>Donato Azevedo wrote:
>  
>
>>Pessoal, tenho o seguinte problema:
>>Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
>>(tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
>>)
>>
>>Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
>>ele lento e nao serviu aos meus propositos (a pagina é muito complexa
>>para usar o mesmo)
>>    
>>
Olá Donato, veja esse exemplo:
 http://www.dotpix.com.br/~wendel/projetos/finderd/robot/radiobras-getnews.cgi.html

O meu problema foi pior: coletar notícias para serem clipadas para 
abastercer a área de jornais do seguinte site: 
http://clipping.radiobras.gov.br, nesse arquivo você pode observar os 
conceitos que usei, esse é um arquivo onde fiz os testes para o sistema 
final, mais aí você pode ter uma ideia do trabalho.

O mais importante é o uso do WWW::Mechanize para puxar os dados e então 
usar o HTML::TokeParser para extrair o que você quer.

PS: o código é feio porque só arranho em perl, tem menos de 6 meses que 
programo na linguagem.

--
 wendel | msn: wendelmaques em yahoo.com.br
 http://www.dotpix.com.br/~wendel/




Mais detalhes sobre a lista de discussão Cascavel-pm