[Munich-pm] XML::RSS::Parser::Lite - Whitespace in Source
Harald Jörg
Harald.Joerg at arcor.de
Wed Feb 15 01:46:39 PST 2012
Stefan Bauer schreibt:
> Danke für die Analyse. Mich würde das Ergebnis dann natürlich auch interessieren.
Ok, here you are: Der erste Fehler liegt beim Web Server.
In der Spezifikation des HTTP-Protkolls (RFC 2616) steht im Abschnitt
3.7.1:
When no explicit charset
parameter is provided by the sender, media subtypes of the "text"
type are defined to have a default charset value of "ISO-8859-1" when
received via HTTP. Data in character sets other than "ISO-8859-1" or
its subsets MUST be labeled with an appropriate charset value. See
section 3.4.1 for compatibility problems.
Wir haben hier einen Content Type text/xml über HTTP geschickt bekommen,
daher muss HTTP/Message.pm "standardkonform" annehmen, dass der Text
im Charset ISO-8859-1 codiert ist. Bei ISO-8859-1 gibt's keine BOM,
also darf er auch nix abschneiden.
Der Web-Server müsste seinen Header also so schreiben:
Content-Type: text/xml; charset=utf-8
----------------------------------------------------------------------
Dazu die Vermutung: HTTP/Message.pm macht's trotzdem falsch.
Ich hab' grade nicht die Zeit, zu testen, was denn passiert, wenn ein
Server den Header richtig versorgt. Ich *vermute* aber anhand des Codes
in Message.pm, dass auch bei richtigem Content-Type Header die BOM
dranbleibt. Aber ohne echte Tests geh' ich mit sowas nicht auf die
libwww-Mailingliste.
--
Cheers,
haj
More information about the Munich-pm
mailing list