[SP-pm] Malformed UTF-8

Marcio Ferreira marciodesouzaferreira at gmail.com
Wed Sep 22 16:14:13 PDT 2010


O XML::Bare é muito veloz porém não é de fato um parser fiel (ao invés "de
verdade"), por exemplo, há a informação do encode na tag de abertura do XML,
porém o módulo pouco se importa.

Pra mim foi uma solução confortável porque o encode já foi definido no
escopo do projeto. Porém não achei a solução muito elegante (open FH,
'<:encoding(iso-8859-1)', $file). E dado a dificuldade que seria tornar isso
possível,  não é viável por conta do prazo, posso tentar posteriormente algo
mais abstrato, porém é meu hobbie.

[]s,

@webgenes
Marcio Ferreira

"Perl lives as the 'toolbox for Unix' "



Em 22 de setembro de 2010 19:42, Nilson Santos Figueiredo Jr. <
acid06 at gmail.com> escreveu:

> 2010/9/22 Marcio Ferreira <marciodesouzaferreira at gmail.com>:
> > não achei a solução ideal porque hoje é iso-8859-1 e amanhã vai ser o que
> ?
> > vou alterar na mão isso ?
>
> O XML já deve vir com o encoding definido no topo:
>
>  <?xml version="1.0" encoding="utf-8" ?>
>
> Caso não venha, o XML não pode conter nenhum caracter não-ASCII, caso
> contrário é um XML mal-formado.
> Se vier com a encoding correta, qualquer XML parser de verdade
> consegue tratar isso.
>
> Infelizmente (como foi avisado pra você no passado) o XML::Bare não é
> um parser de verdade e simplesmente assume que tudo está em UTF-8. Se
> você tiver XMLs bem formados e trocar por um parser como XML::LibXML,
> não terá mais problemas com encoding.
>
> -Nilson
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm at pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20100922/54e60cfb/attachment.html>


More information about the SaoPaulo-pm mailing list