[Dresden-pm] Perl, utf8 und Umlaute

Fr Jun 4 13:20:40 PDT 2010

"Martin Probst (RobHost Support)" <support at robhost.de> writes:
> Hi Steffen,
>
> um es vorweg zu nehmen, mein Problem hat sich größtenteils schon
> erledigt. Ich hole mir die Daten jetzt als Latin1 und kodiere diese
> erst bei der Ausgabe zu UTF-8.  Das behebt die meisten Probleme die
> ich habe.

Dann interessiert mich aber trotzdem noch der Rest.

Ich hab in einem Projekt schon manuell rumtricksen müssen, wenn manche
Frameworks ihre eigenen Heuristiken haben und wasserbettmäßig immer
genau das ausgleichen wollen, was man an den Daten grad gefixt
hat. Damals war das HTML::Mason oder eine Dependency davon.

Und ganz dahinter machten auch die Webserver und sogar die Browser
noch utf8-Upgrades, das war verwirrend, weil der Code schon ok war,
nur die HTML-Direktiven ungenügend. Bis man das aber merkt, hat man
schon zig mal hinten alles zurückgebaut… 

Deine “3-fach”-Probleme klingen danach, die sind also möglicherweise
gar nicht in den Daten selbst, sondern nur in den Tools mit denen Du
die anzeigst, Deine Shell, Dein Editor, der Browser. Dann helfen Byte
Order Marks oder HTML-Direktiven.

Damals habe ich AFAIR auch mit den expliziten Utility-Funktionen aus
utf8::* rumgemacht: utf8::upgrade,downgrade,encode,decode,is_utf8 —
siehe “perldoc utf8”.

Was damals am besten funktioniert hat, war, die latin-Encodings ganz
frühzeitig, dort in einer Datanbankschicht, loszuwerden, alles
konsequent nach utf8 zu bringen und das ggf. mit obigen Funktionen an
den Daten selbst markieren, wenn man selber besser weiß, was sie in
Wirklichkeit schon sind.

Kind regards,
Steffen 
-- 
Steffen Schwigon <ss5 at renormalist.net>
Dresden Perl Mongers <http://dresden-pm.org/>