[Tokyo-pm] Jcode/Encodeでの機種依存文字

Dan Kogai dankogai @ dan.co.jp
2005年 5月 17日 (火) 00:55:34 PDT


On May 17, 2005, at 15:32, <h-taguchi at secom.co.jp> wrote:
> そうでしたか?
> 私の理解では、
> SJISは⇒UTF-8⇒SJISで元のコードに完全に戻るが、EUCはそうでなく、
> 同じ文字に対して複数のコードを重複してもっていて、
> EUCは"round-trip safe"ではないから、Encodeが対応していないのだと
> 思っていました。

まず、sjis != cp932 ということをご理解ください。character repertoire としては、

sjis:   ASCII + JIS X 0201 + JIS X 0208
euc-jp: ASCII + JIS X 0201 + JIS X 0208 + JIS X 0212

と<厳密>になっています。機種依存文字はどちらにもありません。だから、

cp932 -> utf8

は出来ても

utf8 -> euc-jp

ができない。よって

cp932 -> euc-jp

ができない。というわけです。

> しかし、NKF.pmにできるのだから何とかして欲しい。
> 何時になってもNKFから卒業できません。

NKF.pm は、euc-jp における機種依存文字をどう扱っているのですか?まずそれをご教授いただかないと。

#ソース嫁はなしよ。その程度の説明責任を求める権利はあると存じます。

Dan the (J|En)code Maintainer



Tokyo-pm メーリングリストの案内