[Tokyo-pm] Jcode/Encodeでの機種依存文字
Shingo Yamagai
yamagai @ core-s.co.jp
2005年 5月 17日 (火) 02:07:14 PDT
山貝です。
あてずっぽうで横槍入れます。外してたらごめんなさい。
> cp932 -> euc-jp
> ができない。というわけです。
これは、Jcode.pmは内部でutf8を経由しているから、
utf8から変換できないものへの変換は不完全になる、ってことですよね。
NKF.pmは、(そのものを取得できなかったのであてずっぽうなんですが)
内部でnkfを使うもののようです。
nkfは随分前からあるものなので、恐らく、少なくともsjis -> euc-jpの変換では
utf8を経由しないのだろうと思います。
ところが、Jcode.pmは内部でutf8を使うので、必ずutf8を経由する…
(という理解でよろしいですか?)
となると、nkfと同様の実装というのは根本的に不可能になるかと思います。
同じ機能を実現しようとすると、nkfですっきり処理できている部分が、
Jcode.pmでは独自の変換テーブルを用いたものになるでしょう。
この変換テーブルは、いわゆる「機種」の数だけ用意する必要があるでしょう。
(例えば、sjis-mac, sjis-nec, sjis-msx,,,)
また、どの機種かの自動判別はまず不可能かと思います。
…というわけで、Jcode.pm本体での対応はしない方がいいだろうと思います。
--
山貝 真吾
Tokyo-pm メーリングリストの案内