[Cascavel-pm] Extrair conteudo de html usando modulo
wendel
wendel em dotpix.com.br
Sábado Setembro 24 13:15:57 PDT 2005
Luis Campos de Carvalho wrote:
>Donato Azevedo wrote:
>
>
>>Pessoal, tenho o seguinte problema:
>>Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
>>(tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
>>)
>>
>>Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
>>ele lento e nao serviu aos meus propositos (a pagina é muito complexa
>>para usar o mesmo)
>>
>>
Olá Donato, veja esse exemplo:
http://www.dotpix.com.br/~wendel/projetos/finderd/robot/radiobras-getnews.cgi.html
O meu problema foi pior: coletar notícias para serem clipadas para
abastercer a área de jornais do seguinte site:
http://clipping.radiobras.gov.br, nesse arquivo você pode observar os
conceitos que usei, esse é um arquivo onde fiz os testes para o sistema
final, mais aí você pode ter uma ideia do trabalho.
O mais importante é o uso do WWW::Mechanize para puxar os dados e então
usar o HTML::TokeParser para extrair o que você quer.
PS: o código é feio porque só arranho em perl, tem menos de 6 meses que
programo na linguagem.
--
wendel | msn: wendelmaques em yahoo.com.br
http://www.dotpix.com.br/~wendel/
Mais detalhes sobre a lista de discussão Cascavel-pm