[Cascavel-pm] Extrair conteudo de html usando modulo
Donato Azevedo
donatoaz em gmail.com
Sexta Setembro 23 06:01:24 PDT 2005
Pessoal, tenho o seguinte problema:
Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
(tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
)
Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
ele lento e nao serviu aos meus propositos (a pagina é muito complexa
para usar o mesmo)
Usando regex puro e simples, fica muito complicado, eu gostaria de
saber se existe algum modulo no qual eu especifico regras do tipo:
todo nome obedece o regex /REGEX_PARA_NOME/ e que eu simplesmente
fornecesse a string contendo o html e ele retornasse pra mim o
resultado das regras inseridas...
outra pergunta: alguem conhece uma ferramenta tipo o regex builder ou
o Filter Builder mas que seja gratuito? (e para linux..)
[]
palavras chave: wrapping, wrapper, data extraction, data mining, regex
--
***********************************
Donato Azevedo - UFMG
Engenharia de Controle e Automação
ATAN eBusiness
msn:donatoaz em hotmail.com
Slackware user #390325
***********************************
We will encourage you to develop the three great virtues
of a programmer: laziness, impatience, and hubris.
"Larry Wall - Programming perl"
Mais detalhes sobre a lista de discussão Cascavel-pm