[Munich-pm] XML::RSS::Parser::Lite - Whitespace in Source

Harald Jörg Harald.Joerg at arcor.de
Wed Feb 15 01:46:39 PST 2012


Stefan Bauer schreibt:

> Danke für die Analyse. Mich würde das Ergebnis dann natürlich auch interessieren.

Ok, here you are: Der erste Fehler liegt beim Web Server.

In der Spezifikation des HTTP-Protkolls (RFC 2616) steht im Abschnitt
3.7.1:

   When no explicit charset
   parameter is provided by the sender, media subtypes of the "text"
   type are defined to have a default charset value of "ISO-8859-1" when
   received via HTTP. Data in character sets other than "ISO-8859-1" or
   its subsets MUST be labeled with an appropriate charset value. See
   section 3.4.1 for compatibility problems.

Wir haben hier einen Content Type text/xml über HTTP geschickt bekommen,
daher muss HTTP/Message.pm "standardkonform" annehmen, dass der Text
im Charset ISO-8859-1 codiert ist.  Bei ISO-8859-1 gibt's keine BOM,
also darf er auch nix abschneiden.

Der Web-Server müsste seinen Header also so schreiben:

    Content-Type: text/xml; charset=utf-8

----------------------------------------------------------------------

Dazu die Vermutung: HTTP/Message.pm macht's trotzdem falsch.

Ich hab' grade nicht die Zeit, zu testen, was denn passiert, wenn ein
Server den Header richtig versorgt.  Ich *vermute* aber anhand des Codes
in Message.pm, dass auch bei richtigem Content-Type Header die BOM
dranbleibt.  Aber ohne echte Tests geh' ich mit sowas nicht auf die
libwww-Mailingliste. 
--
Cheers,
haj




More information about the Munich-pm mailing list