[Cascavel-pm] Extrair conteudo de html usando modulo

Luis Campos de Carvalho monsieur_champs em yahoo.com.br
Segunda Setembro 26 13:03:53 PDT 2005


--- wendel <wendel em dotpix.com.br> escreveu:
> Olá Donato, veja esse exemplo:
>  http://www.dotpix.com.br/~wendel/projetos/finderd/robot/radiobras-getnews.cgi.html
> 
> O meu problema foi pior: coletar notícias para serem clipadas para 
> abastercer a área de jornais do seguinte site: 
> http://clipping.radiobras.gov.br, nesse arquivo você pode observar os 
> conceitos que usei, esse é um arquivo onde fiz os testes para o sistema 
> final, mais aí você pode ter uma ideia do trabalho.
> 
> O mais importante é o uso do WWW::Mechanize para puxar os dados e então 
> usar o HTML::TokeParser para extrair o que você quer.
> 
> PS: o código é feio porque só arranho em perl, tem menos de 6 meses que 
> programo na linguagem.

  Seu problema pode ficar BEM menos complicado se você usar os recursos de RSS que a maior parte
dos websites de agências de notícias utilizam. As notícias viriam já organizadas e separadas em
blocos "inseríveis", bastando para isso que você se conectasse de tempos em tempos para atualizar
seu conteúdo... 

  Se o problema de extração de informação de páginas HTML que se está tentando expor aqui for
este, estamos rumando na direção errada. É muito mais simples e prático se aproveitar dos RSS
Feeds que existem pelo mundo e simplesmente "obter e publicar".

  Tentando "biduzar" qual o objetivo do programa...
  Putamplexos!

  Putamplexos!

--
Luis Campos de Carvalho
Member of "São Paulo Perl Mongers",
Unix SysAdmin & OCP/DBA Oracle
http://br.geocities.com/monsieur_champs/


	


	
		
_______________________________________________________ 
Novo Yahoo! Messenger com voz: ligações, Yahoo! Avatars, novos emoticons e muito mais. Instale agora! 
www.yahoo.com.br/messenger/


Mais detalhes sobre a lista de discussão Cascavel-pm