[Cascavel-pm] Extrair conteudo de html usando modulo

Joenio Marques joenio em gmail.com
Sexta Setembro 23 06:26:31 PDT 2005


Talvez voce possa utilizar o HTML::TreeBuilder. Ele faz um parser no
HTML e gera uma arvore onde voce podera percorrer e pesquisar os nós
extraindo os dados necessários.

Por exemplo, voce pode dizer:
Me dê todos as tags 'Table' que possuam atributo class igual a
'IndicProdTabela' e guarde isso no array @tables.
E esse array conterá uma lista de elementos HTML (HTML::Element) encontrados.

Voce pode ainda utilizar expressao regular nessa busca, por exemplo:
Me de todas as tags 'a' onde o conteudo texto da tag (o link) combine
com a seguinte regra '/\d+/'.

De uma olhada nesse texto, caso voce opte por usar esse modulo.
http://interglacial.com/~sburke/tpj/as_html/tpj19.html

Em relacao a ferramenta para construcao de regex já ouvi falar no
txt2regex mas nunca utilizei.
http://txt2regex.sourceforge.net/index-pt.html

Att,
Joenio Marques

Em 23/09/05, Donato Azevedo<donatoaz em gmail.com> escreveu:
> Pessoal, tenho o seguinte problema:
> Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
> (tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
> )
>
> Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
> ele lento e nao serviu aos meus propositos (a pagina é muito complexa
> para usar o mesmo)
>
> Usando regex puro e simples, fica muito complicado, eu gostaria de
> saber se existe algum modulo no qual eu especifico regras do tipo:
>
> todo nome obedece o regex /REGEX_PARA_NOME/  e que eu simplesmente
> fornecesse a string contendo o html e ele retornasse pra mim o
> resultado das regras inseridas...
>
> outra pergunta: alguem conhece uma ferramenta tipo o regex builder ou
> o Filter Builder mas que seja gratuito? (e para linux..)
>
> []
>
> palavras chave: wrapping, wrapper, data extraction, data mining, regex
> --
> ***********************************
> Donato Azevedo - UFMG
> Engenharia de Controle e Automação
> ATAN eBusiness
> msn:donatoaz em hotmail.com
> Slackware user #390325
> ***********************************
> We will encourage you to develop the three great virtues
> of a programmer: laziness, impatience, and hubris.
>     "Larry Wall - Programming perl"
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
>


Mais detalhes sobre a lista de discussão Cascavel-pm