[Tokyo-pm] Jcode/Encodeでの機種依存文字
Dan Kogai
dankogai @ dan.co.jp
2005年 5月 17日 (火) 00:55:34 PDT
On May 17, 2005, at 15:32, <h-taguchi at secom.co.jp> wrote:
> そうでしたか?
> 私の理解では、
> SJISは⇒UTF-8⇒SJISで元のコードに完全に戻るが、EUCはそうでなく、
> 同じ文字に対して複数のコードを重複してもっていて、
> EUCは"round-trip safe"ではないから、Encodeが対応していないのだと
> 思っていました。
まず、sjis != cp932 ということをご理解ください。character repertoire としては、
sjis: ASCII + JIS X 0201 + JIS X 0208
euc-jp: ASCII + JIS X 0201 + JIS X 0208 + JIS X 0212
と<厳密>になっています。機種依存文字はどちらにもありません。だから、
cp932 -> utf8
は出来ても
utf8 -> euc-jp
ができない。よって
cp932 -> euc-jp
ができない。というわけです。
> しかし、NKF.pmにできるのだから何とかして欲しい。
> 何時になってもNKFから卒業できません。
NKF.pm は、euc-jp における機種依存文字をどう扱っているのですか?まずそれをご教授いただかないと。
#ソース嫁はなしよ。その程度の説明責任を求める権利はあると存じます。
Dan the (J|En)code Maintainer
Tokyo-pm メーリングリストの案内