[Cascavel-pm] Mais um problema de codificação

Márcio Vitor cromo.jml em gmail.com
Terça Novembro 27 11:22:46 PST 2007


Muito obrigado Alceu, bom resolvi fazer uns testes usando o
file(desconhecia) e parece que ele me deu a resposta do problema,
veja:

mvitor em mvitor-desktop:~$ file content.htm
content.htm: UTF-8 Unicode HTML document text, with very long lines,
with CRLF, CR line terminators

Criei um script para fazer a decodificação que meu programa faz e
gravar em um novo arquivo:
<code>
use strict;
use Unicode::UTF8simple;

my $uref = new Unicode::UTF8simple;
my $string;
open(FILE, "<content.htm") or die "\n Arquivo não encontrado!!!\n";
{
	local $/=undef;
	$string = <FILE>;
}
close(FILE);

$string = $uref->fromUTF8('iso-8859-1',$string);

open my $fh,">content_iso.html";
print $fh $string;
close($fh);
</code>

Quando verifico a codificação do mesmo com o file:
mvitor em mvitor-desktop:~$ file content_iso.html
content_iso.html: Non-ISO extended-ASCII HTML document text, with very
long lines, with CRLF, CR line terminators

O que eu conclui é que o módulo não está conseguindo converter para
iso a minha string utf8, estou certo ?
Se estiver certo, agora tenho que conseguir uma maneira de fazer esta
conversão de Non-ISO para iso-8859-1.
Vamos ver...

Obrigado
Márcio Vitor



On Nov 27, 2007 2:42 PM, Alceu Rodrigues de Freitas Junior
<glasswalk3r em hotmail.com> wrote:
>
> Esse é um tipo de problema bastante chato. Você pode tentar verificar se o
> arquivo de fonte de dados está usando o ASCII extendido mesmo usando um
> editor hexadecimal. O comando file pode ser de alguma ajuda também.
>
> O problema é ter ocorrido algum problema de conversão para gerar os dados do
> website. Aí você vai receber o dado ruim e ter que arrumar ele.
>
> Se você gerar o dado manualmente e carregar no Oracle ele fica OK?
>
> []'s
>
> ---
> Alceu Rodrigues de Freitas Junior
> glasswalk3r em hotmail.com
> "Escolha um trabalho que você ama e você nunca mais terá que trabalhar um
> dia na sua vida" - Confúcio
>
> ________________________________
> > Date: Tue, 27 Nov 2007 12:39:29 -0200
>
> > From: cromo.jml em gmail.com
> > To: cascavel-pm em pm.org
> > Subject: Re: [Cascavel-pm] Mais um problema de codificação
> >
> > Verifiquei e está ok, infelizmente :P com iso como codificação e
> > Portuguese Brazilian como linguagem.
>
> ________________________________
> Get news, entertainment and everything you care about at Live.com. Check it
> out!
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
>


Mais detalhes sobre a lista de discussão Cascavel-pm