[Cascavel-pm] Extrair conteudo de html usando modulo
Luis Campos de Carvalho
monsieur_champs em yahoo.com.br
Sexta Setembro 23 20:03:52 PDT 2005
Donato Azevedo wrote:
> Pessoal, tenho o seguinte problema:
> Preciso extrair o conteudo de curriculos lattes de uma pagina do cnpq
> (tipo : http://buscatextual.cnpq.br/buscatextual/visualizacv.jsp?id=K4708617Z1&tipo=completo
> )
>
> Estava pensando em usar o WWW::Extractor encontrado no CPAN mas achei
> ele lento e nao serviu aos meus propositos (a pagina é muito complexa
> para usar o mesmo)
Você pode se dar muito bem com o HTML::Parser, ou o
Parser::RecDescent. Ambos têm curvas de aprendizado meio íngremes, mas
depois que você sobe o morro é só descida... ;-)
> Usando regex puro e simples, fica muito complicado, eu gostaria de
> saber se existe algum modulo no qual eu especifico regras do tipo:
>
> todo nome obedece o regex /REGEX_PARA_NOME/ e que eu simplesmente
> fornecesse a string contendo o html e ele retornasse pra mim o
> resultado das regras inseridas...
NUNCA TENTE FAZER PARSE DE HTML COM EXPRESSÕES REGULARES!
Elas sempre vão deixar você na mão.
Utilize um parser apropriado a não ser que você queira morrer louco
tratando excessões.
> outra pergunta: alguem conhece uma ferramenta tipo o regex builder ou
> o Filter Builder mas que seja gratuito? (e para linux..)
Não entendi.
O que são estas ferramentas?
Se não é open-source, e não é da Oracle, eu não conheço... ;-)
Putamplexos!
--
=======================================================
Luis Campos de Carvalho is BsC in Computer Science,
Certified Oracle DBA, UNIX and Linux lover, Perl
Fanatic and Leader of the Sao Paulo Perl Mongers
http://br.geocities.com/monsieur_champs/
=======================================================
_______________________________________________________
Novo Yahoo! Messenger com voz: ligações, Yahoo! Avatars, novos emoticons e muito mais. Instale agora!
www.yahoo.com.br/messenger/
Mais detalhes sobre a lista de discussão Cascavel-pm