[SP-pm] Malformed UTF-8

Andre Carneiro andregarciacarneiro at gmail.com
Tue Sep 21 09:50:11 PDT 2010


Problemas com codificação não são exclusivos do XML::Bare. Normalmente são
problemas oriundos dos 'gênios' que constroem as 'apps', 'webservices', ou o
'diabo' que for, que 'cospem' o XML com cabeçalhos inconsistentes,
codificação errada, codificação mista, etc. etc. etc. Isso eu posso falar pq
lido com essa porcaria quase todo santo dia, e eu o XML::Bare e vários
outros parsers. A melhor estratégia que eu pude implementar foi converter as
codificações quando possível e traduzir os caracteres, mantendo uma tabela
de tradução que cresce cada vez menos agora.

O ideal seria ter algo que detectasse a codificação de um caracter para
corrigir diretamente, mas isso é muito difícil de implementar de forma
eficiente, pelo que eu vejo. Tem algumas tentativas como o Encode::Guess.
Mas por experiência própria não é sempre que funciona, e sinceramente não
tive paciência e nem tempo pra testar isso direito... Fique a vontade para
tentar.


Cheers!



Em 21 de setembro de 2010 12:41, Nilson Santos Figueiredo Jr. <
acid06 at gmail.com> escreveu:

> 2010/9/20 Marcio Ferreira <marciodesouzaferreira at gmail.com>:
> > só amanhã do trabalho, mas basicamente eu uso o XML::Bare para carregar o
> > XML, faço um trim nos abributos do XML, já que o XML::Bare não o faz.
>
> Provavelmente o XML::Bare, por ser um parser mais "tosco", está
> assumindo que o conteúdo está em UTF8 e está setando a flag de UTF8 na
> string.
>
> -Nilson
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm at pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>



-- 
André Garcia Carneiro
Analista/Desenvolvedor Perl
(11)82907780
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20100921/2b61c3c1/attachment.html>


More information about the SaoPaulo-pm mailing list