[Cascavel-pm] Extrair conteudo de html usando modulo

Donato Azevedo donatoaz em gmail.com
Sexta Setembro 23 06:01:24 PDT 2005


Pessoal, tenho o seguinte problema:
Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
(tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
)

Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
ele lento e nao serviu aos meus propositos (a pagina é muito complexa
para usar o mesmo)

Usando regex puro e simples, fica muito complicado, eu gostaria de
saber se existe algum modulo no qual eu especifico regras do tipo:

todo nome obedece o regex /REGEX_PARA_NOME/  e que eu simplesmente
fornecesse a string contendo o html e ele retornasse pra mim o
resultado das regras inseridas...

outra pergunta: alguem conhece uma ferramenta tipo o regex builder ou
o Filter Builder mas que seja gratuito? (e para linux..)

[]

palavras chave: wrapping, wrapper, data extraction, data mining, regex
--
***********************************
Donato Azevedo - UFMG
Engenharia de Controle e Automação
ATAN eBusiness
msn:donatoaz em hotmail.com
Slackware user #390325
***********************************
We will encourage you to develop the three great virtues
of a programmer: laziness, impatience, and hubris.
    "Larry Wall - Programming perl"


Mais detalhes sobre a lista de discussão Cascavel-pm