[Cascavel-pm] "dump" de site usando Perl

Breno G. de Oliveira breno em clavis.com.br
Sexta Junho 9 16:02:52 PDT 2006


Fala Ivo,

Testei a solução apontada pelo Flávio aqui e me parece a mais próxima do
que você quer fazer. Naturalmente algumas perfumarias que o lynx
implementa no "dump" ficaram ausentes, mas acho que são facilmente
adicionadas por você mesmo.

Alguns pontos são facilmente observados:

- nao há "simulacao" do que nao é texto. No lynx, por exemplo, comando
de botao de rádio aparece com (_) antes do texto;

- botões não aparecem (nem o texto dentro deles), pelo mesmo motivo acima;

- links não são marcados e aparecem como referência no final do "dump";

Mas isso tudo é facilmente resolvido. O que notadamente pode ser um
problema para sua migração é o fato de que tabelas não me parecem ser
manipuladas (leia-se formatadas) corretamente, texto centralizado, etc.
Não sou capaz de dizer até que ponto isso afeta seu projeto nem quão
difícil seria implementar.

Abaixo segue uma comparação simples dos dois. Note que o google é um
site muito simples, não sei como a solução (nem o lynx) se comportam em
casos de sites mais rebuscados.

[]s

breno


---------------lynx -dump---------------------

             [1]Página inicial personalizada | [2]Efetuar login

                          [3]Brasil rumo ao hexa!

   Web    [4]Imagens    [5]Grupos    [6]Diretório    [7]Notícias    [8]ma
   is »

     _______________________________________________________
   Pesquisa Google Estou com sorte   [9]Pesquisa avançada
     [10]Preferências
     [11]Ferramentas de idiomas
   Pesquisar: (_) a web (_) páginas em português (_) páginas do Brasil

     Novo! [12]Adicione os placares e programação da Copa a esta página
   [13]Soluções de publicidade - [14]Tudo sobre o Google - [15]Google.com
                                 in English

                                ©2006 Google
References

   1.
http://www.google.com.br/url?sa=p&pref=ig&pval=3&q=http://www.google.com.br/ig%3Fhl%3Dpt-BR
   2.
https://www.google.com/accounts/Login?continue=http://www.google.com.br/&hl=pt-BR
   3. http://www.google.com.br/search?q=2006+world+football
   4. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
   5. http://groups.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
   6. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
   7. http://news.google.com.br/nwshp?hl=pt-BR&tab=wn&ie=UTF-8
   8. http://www.google.com.br/intl/pt-BR/options/
   9. http://www.google.com.br/advanced_search?hl=pt-BR
  10. http://www.google.com.br/preferences?hl=pt-BR
  11. http://www.google.com.br/language_tools?hl=pt-BR
  12. http://www.google.com.br/ig/worldcup?source=wchp
  13. http://www.google.com.br/intl/pt/ads/
  14. http://www.google.com.br/intl/pt-BR/about.html
  15. http://www.google.com/ncr
---------------lynx -dump---------------------

---------------html2text.pl---------------------
Google

Página inicial personalizada | Efetuar login


Web    Imagens    Grupos    Diretório    Notícias    mais » 
  Pesquisa avançada
  Preferências
  Ferramentas de idiomasPesquisar:  a web  páginas em português  páginas
do Brasil
Novo! Adicione os placares e programação da Copa a esta página


Soluções de publicidade - Tudo sobre o Google - Google.com in English
---------------html2text.pl---------------------

Flavio S. Glock wrote:
> Aqui tem um exemplo de como fazer a conversão de html em texto - achei
> o resultado bem razoável:
> 
> http://www.sozlukcu.org/html-to-text.html
> 
> - Flavio S. Glock
> 
> Em 08/06/06, Ivo Peixinho<ivocarv em cais.rnp.br> escreveu:
> 
>>  Pessoal,
>>
>>    Alguem sabe de algum modulo/recurso do Perl que seja capaz (de uma
>>forma bem simples) fazer um "dump" formatado de um site em modo texto,
>>algo igual ao que obtenho com um lynx -dump?
>>
>>    PS: Nao vale $dump=`lynx -dump $site`; ok?
>>
>>          Ivo.
>>_______________________________________________
>>Cascavel-pm mailing list
>>Cascavel-pm em pm.org
>>http://mail.pm.org/mailman/listinfo/cascavel-pm
>>
> 
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
> 
> 


Mais detalhes sobre a lista de discussão Cascavel-pm