[Cascavel-pm] Extrair conteudo de html usando modulo

Sexta Setembro 23 20:03:52 PDT 2005

Donato Azevedo wrote:
> Pessoal, tenho o seguinte problema:
> Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
> (tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
> )
> 
> Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
> ele lento e nao serviu aos meus propositos (a pagina é muito complexa
> para usar o mesmo)

   Você pode se dar muito bem com o HTML::Parser, ou o 
Parser::RecDescent. Ambos têm curvas de aprendizado meio íngremes, mas 
depois que você sobe o morro é só descida... ;-)

> Usando regex puro e simples, fica muito complicado, eu gostaria de
> saber se existe algum modulo no qual eu especifico regras do tipo:
> 
> todo nome obedece o regex /REGEX_PARA_NOME/  e que eu simplesmente
> fornecesse a string contendo o html e ele retornasse pra mim o
> resultado das regras inseridas...

   NUNCA TENTE FAZER PARSE DE HTML COM EXPRESSÕES REGULARES!
   Elas sempre vão deixar você na mão.
   Utilize um parser apropriado a não ser que você queira morrer louco 
tratando excessões.

> outra pergunta: alguem conhece uma ferramenta tipo o regex builder ou
> o Filter Builder mas que seja gratuito? (e para linux..)

   Não entendi.
   O que são estas ferramentas?
   Se não é open-source, e não é da Oracle, eu não conheço... ;-)
   Putamplexos!
-- 
=======================================================
   Luis Campos de Carvalho is BsC in Computer Science,
   Certified Oracle DBA, UNIX and Linux lover, Perl
   Fanatic and Leader of the Sao Paulo Perl Mongers
   http://br.geocities.com/monsieur_champs/
=======================================================

_______________________________________________________ 
Novo Yahoo! Messenger com voz: ligações, Yahoo! Avatars, novos emoticons e muito mais. Instale agora! 
www.yahoo.com.br/messenger/