[Cascavel-pm] "dump" de site usando Perl
Breno G. de Oliveira
breno em clavis.com.br
Sexta Junho 9 16:02:52 PDT 2006
Fala Ivo,
Testei a solução apontada pelo Flávio aqui e me parece a mais próxima do
que você quer fazer. Naturalmente algumas perfumarias que o lynx
implementa no "dump" ficaram ausentes, mas acho que são facilmente
adicionadas por você mesmo.
Alguns pontos são facilmente observados:
- nao há "simulacao" do que nao é texto. No lynx, por exemplo, comando
de botao de rádio aparece com (_) antes do texto;
- botões não aparecem (nem o texto dentro deles), pelo mesmo motivo acima;
- links não são marcados e aparecem como referência no final do "dump";
Mas isso tudo é facilmente resolvido. O que notadamente pode ser um
problema para sua migração é o fato de que tabelas não me parecem ser
manipuladas (leia-se formatadas) corretamente, texto centralizado, etc.
Não sou capaz de dizer até que ponto isso afeta seu projeto nem quão
difícil seria implementar.
Abaixo segue uma comparação simples dos dois. Note que o google é um
site muito simples, não sei como a solução (nem o lynx) se comportam em
casos de sites mais rebuscados.
[]s
breno
---------------lynx -dump---------------------
[1]Página inicial personalizada | [2]Efetuar login
[3]Brasil rumo ao hexa!
Web [4]Imagens [5]Grupos [6]Diretório [7]Notícias [8]ma
is »
_______________________________________________________
Pesquisa Google Estou com sorte [9]Pesquisa avançada
[10]Preferências
[11]Ferramentas de idiomas
Pesquisar: (_) a web (_) páginas em português (_) páginas do Brasil
Novo! [12]Adicione os placares e programação da Copa a esta página
[13]Soluções de publicidade - [14]Tudo sobre o Google - [15]Google.com
in English
©2006 Google
References
1.
http://www.google.com.br/url?sa=p&pref=ig&pval=3&q=http://www.google.com.br/ig%3Fhl%3Dpt-BR
2.
https://www.google.com/accounts/Login?continue=http://www.google.com.br/&hl=pt-BR
3. http://www.google.com.br/search?q=2006+world+football
4. http://www.google.com.br/imghp?hl=pt-BR&tab=wi&ie=UTF-8
5. http://groups.google.com.br/grphp?hl=pt-BR&tab=wg&ie=UTF-8
6. http://www.google.com.br/dirhp?hl=pt-BR&tab=wd&ie=UTF-8
7. http://news.google.com.br/nwshp?hl=pt-BR&tab=wn&ie=UTF-8
8. http://www.google.com.br/intl/pt-BR/options/
9. http://www.google.com.br/advanced_search?hl=pt-BR
10. http://www.google.com.br/preferences?hl=pt-BR
11. http://www.google.com.br/language_tools?hl=pt-BR
12. http://www.google.com.br/ig/worldcup?source=wchp
13. http://www.google.com.br/intl/pt/ads/
14. http://www.google.com.br/intl/pt-BR/about.html
15. http://www.google.com/ncr
---------------lynx -dump---------------------
---------------html2text.pl---------------------
Google
Página inicial personalizada | Efetuar login
Web Imagens Grupos Diretório Notícias mais »
Pesquisa avançada
Preferências
Ferramentas de idiomasPesquisar: a web páginas em português páginas
do Brasil
Novo! Adicione os placares e programação da Copa a esta página
Soluções de publicidade - Tudo sobre o Google - Google.com in English
---------------html2text.pl---------------------
Flavio S. Glock wrote:
> Aqui tem um exemplo de como fazer a conversão de html em texto - achei
> o resultado bem razoável:
>
> http://www.sozlukcu.org/html-to-text.html
>
> - Flavio S. Glock
>
> Em 08/06/06, Ivo Peixinho<ivocarv em cais.rnp.br> escreveu:
>
>> Pessoal,
>>
>> Alguem sabe de algum modulo/recurso do Perl que seja capaz (de uma
>>forma bem simples) fazer um "dump" formatado de um site em modo texto,
>>algo igual ao que obtenho com um lynx -dump?
>>
>> PS: Nao vale $dump=`lynx -dump $site`; ok?
>>
>> Ivo.
>>_______________________________________________
>>Cascavel-pm mailing list
>>Cascavel-pm em pm.org
>>http://mail.pm.org/mailman/listinfo/cascavel-pm
>>
>
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
>
>
Mais detalhes sobre a lista de discussão Cascavel-pm