[Tokyo-pm] Jcode/Encodeでの機種依存文字

Shingo Yamagai yamagai @ core-s.co.jp
2005年 5月 17日 (火) 02:07:14 PDT


山貝です。
あてずっぽうで横槍入れます。外してたらごめんなさい。

> cp932 -> euc-jp
> ができない。というわけです。

これは、Jcode.pmは内部でutf8を経由しているから、
utf8から変換できないものへの変換は不完全になる、ってことですよね。

NKF.pmは、(そのものを取得できなかったのであてずっぽうなんですが)
内部でnkfを使うもののようです。
nkfは随分前からあるものなので、恐らく、少なくともsjis -> euc-jpの変換では
utf8を経由しないのだろうと思います。

ところが、Jcode.pmは内部でutf8を使うので、必ずutf8を経由する…
(という理解でよろしいですか?)
となると、nkfと同様の実装というのは根本的に不可能になるかと思います。

同じ機能を実現しようとすると、nkfですっきり処理できている部分が、
Jcode.pmでは独自の変換テーブルを用いたものになるでしょう。
この変換テーブルは、いわゆる「機種」の数だけ用意する必要があるでしょう。
(例えば、sjis-mac, sjis-nec, sjis-msx,,,)
また、どの機種かの自動判別はまず不可能かと思います。


…というわけで、Jcode.pm本体での対応はしない方がいいだろうと思います。

--
 山貝 真吾



Tokyo-pm メーリングリストの案内