[Cascavel-pm] Extrair conteudo de html usando modulo
Luis Campos de Carvalho
monsieur_champs em yahoo.com.br
Segunda Setembro 26 13:03:53 PDT 2005
--- wendel <wendel em dotpix.com.br> escreveu:
> Olá Donato, veja esse exemplo:
> http://www.dotpix.com.br/~wendel/projetos/finderd/robot/radiobras-getnews.cgi.html
>
> O meu problema foi pior: coletar notícias para serem clipadas para
> abastercer a área de jornais do seguinte site:
> http://clipping.radiobras.gov.br, nesse arquivo você pode observar os
> conceitos que usei, esse é um arquivo onde fiz os testes para o sistema
> final, mais aí você pode ter uma ideia do trabalho.
>
> O mais importante é o uso do WWW::Mechanize para puxar os dados e então
> usar o HTML::TokeParser para extrair o que você quer.
>
> PS: o código é feio porque só arranho em perl, tem menos de 6 meses que
> programo na linguagem.
Seu problema pode ficar BEM menos complicado se você usar os recursos de RSS que a maior parte
dos websites de agências de notícias utilizam. As notícias viriam já organizadas e separadas em
blocos "inseríveis", bastando para isso que você se conectasse de tempos em tempos para atualizar
seu conteúdo...
Se o problema de extração de informação de páginas HTML que se está tentando expor aqui for
este, estamos rumando na direção errada. É muito mais simples e prático se aproveitar dos RSS
Feeds que existem pelo mundo e simplesmente "obter e publicar".
Tentando "biduzar" qual o objetivo do programa...
Putamplexos!
Putamplexos!
--
Luis Campos de Carvalho
Member of "São Paulo Perl Mongers",
Unix SysAdmin & OCP/DBA Oracle
http://br.geocities.com/monsieur_champs/
_______________________________________________________
Novo Yahoo! Messenger com voz: ligações, Yahoo! Avatars, novos emoticons e muito mais. Instale agora!
www.yahoo.com.br/messenger/
Mais detalhes sobre a lista de discussão Cascavel-pm