[Cascavel-pm] Arquivo TXT

Luis Campos de Carvalho monsieur_champs em yahoo.com.br
Domingo Novembro 6 08:51:15 PST 2005


--- Nelson Ferraz <nferraz em gmail.com> escreveu:
> > Como faço para converter um arquivo html para txt ??
> 
> A solução pode ser tão banal quanto simplesmente remover as tags html:
> 
> perl -pe 's/\<.+?\>//g' arquivo.html

  Isto reconhecidamente não funciona, especialmente com arquivos HTML gerados por ferramentas
Micro$hit, que inserem "\n" ilegais dentro dos tags. Você corre o risco de terminar com muitos
"pedaços" de tags não-removidos no seu arquivo texto.

> ...mas talvez você queira algo mais elaborado, como ignorar quebrar
> linhas em <br/>; parágrafos em <p></p>; converter <b>negrito</b> para
> *negrito* e <i>itálico</i> para /itálico/; etc.
> 
> O google oferece alguns exemplos:
> 
> http://www.google.com.br/search?q=html2txt+filetype%3Apl

  Por outro lado, isto foi muito didático... ;-)

--
Luis Campos de Carvalho
Member of "São Paulo Perl Mongers",
Unix SysAdmin & OCP/DBA Oracle
http://br.geocities.com/monsieur_champs/


	



	
		
_______________________________________________________ 
Yahoo! Acesso Grátis: Internet rápida e grátis. 
Instale o discador agora!
http://br.acesso.yahoo.com/



Mais detalhes sobre a lista de discussão Cascavel-pm