HTML Entities und Umlaute (was: [vienna.pm] cgi.pm: Radio Buttons beschriften)

Peter J . Holzer hjp at wsr.ac.at
Fri May 26 02:45:21 CDT 2000


On 2000-05-25 19:32:57 +0100, Peter Seitz wrote:
> Wenn ich den Umlaut aber mit einem Windows-Editor in die Textdatei 
> reinschreibe, dann wird dieer nicht richtig codiert, d.h. er ist 
> wieder nur auf der Windows Platform korrekt lesbar.

Hat zwar mit Perl nichts zu tun, aber:

Die Kodierung von Umlauten durch Entities (Ä oder Ä für
Ä) ist *nicht* notwendig, um korrektes HTML zu erzeugen. Weder HTML
noch HTTP sind auf den ASCII-Zeichensatz beschränkt. Bei HTTP ist der
Default-Zeichensatz für text/* iso-8859-1 [1]. Da Windows normalerweise
ein Superset von iso-8859-1 verwendet, muß man Umlaute nicht als
Entities schreiben, da sie bereits den korrekten Code haben.

Etwas anderes ist es mit Zeichen, die nicht im Zeichensatz iso-8859-1
enthalten sind. Z.B. ist der Gedankenstrich zwar im Windows-Zeichensatz
enthalten (Code 151), aber nicht in iso-8859-1. Man hat dann mehrere
Möglichkeiten: Entweder man schreibt den Gedankenstrich trotzdem als ein
Zeichen hin und gibt den entsprechenden Zeichensatz an (Content-type:
text/html; charset="windows-1252"), oder man kodiert ihn als entity
(&emdash; oder — oder &#8212). Die numerischen Entities beziehen
sich übrigens immer auf Unicode[2]. — ist auch dann falsch, wenn
das Characterset auf windows-1252 gestellt wurde! (Ja, ich weiß, daß
Netcrap und Exploder das falsch machen).

Ähnlich ist die Situation, wenn man Zeichen verwenden will, die im
aktuellen Zeichensatz gar nicht enthalten sind (z.B. Chinesische
Zeichen) oder wenn der Editor einen Zeichensatz verwendet, der mit
Latin-1 nichts zu tun hat (z.B. Mac oder MS-DOS-Zeichensätze).

	hp


[1] RFC 2068, Sec, 3.7.1
    (http://ftp.univie.ac.at/netinfo/rfc/rfc2068.txt)

[2] HTML 4.01, Sec. 5.3.1
    (http://www.w3.org/TR/REC-html40/charset.html#h-5.3.1)


-- 
   _  | Peter J. Holzer      | ... Desinformation und Gerüchte,
|_|_) | Sysadmin WSR / LUGA  |  im Internet auch "flaming" genannt ...
| |   | hjp at wsr.ac.at        |
__/   | http://www.hjp.at/   |	   -- Telekom-Presse 2000-04-26    
-------------- next part --------------
A non-text attachment was scrubbed...
Name: not available
Type: application/pgp-signature
Size: 371 bytes
Desc: not available
Url : http://mail.pm.org/archives/vienna-pm/attachments/20000526/862a1aa5/attachment.bin


More information about the Vienna-pm mailing list