[Tokyo.pm] Unicode combining character sequence

2000年 10月 18日 (水) 12:49:10 CDT

From: utashiro ＠ iij.ad.jp
Subject: [Tokyo.pm] Unicode combining character sequence
Date: Wed, 18 Oct 2000 01:54:40 +0900 (JST)

> ----------------------------------------------------------------------
> perldoc perlunicode には
> 
>        o   The special pattern \X match matches any extended
>            Unicode sequence (a "combining character sequence" in
>            Standardese), where the first character is a base
> 
> と書いてあるのですが、Unicode 3.0 にも JISX0221-1995 にも combining
> character sequence という言葉は出て来ません。
> 
> JISX0221-1995 によれば combining character は「結合文字」で、base
> character (基底文字) に combining character を連結することで composite
> sequence (合成列) を構成することになっています。
> 
> perlunicode の combining character sequence は、この composite
> sequence と同じだと考えていいのでしょうか。
> 
> ただ、Unicode 3.0 の英文規格には、どうも composite sequence という記述
> が見付からないのが不思議です。combination というのが近いのかもしれない。
> 
> 具体的には、リファレンス34ページの
> 
>     \X
> 	Match extended Unicode ``combining character sequence.''
> 
> をどう訳そうか悩んでいて、今のところ
> 
> 	Unicode の拡張結合文字列にマッチする。
> 
> となっています。で、どうもこの「結合文字列」というのが、Unicode 的に正
> しい用語かわからないし、その前の「拡張」というのも、なんか意味不明だな
> あ、と思っているところです。
> 
> だいたい、結合文字だけをつなげても意味無いので、結合文字列って変ですよ
> ねえ。でも、合成列というのも、どうも気に入らないのです。

From: maeda ＠ tokyo.pm.org
Subject: Re: [Tokyo.pm] Unicode combining character sequence
Date: Wed, 18 Oct 2000 10:22:44 +0900 (JST)

> Unicode関連は勉強していないのですが、Perl使いの立場から
> 
> > Unicode の拡張結合文字列にマッチする。
> 
> これでよいと思います。意味不明なのは原語も同じなのでは。

原文と同じように意味不明であれば、それでよしと思っています。ただ、原文
が持つ曖昧さを間違って方向に同定してしまうことを恐れています。

この例の場合、「結合文字列」はそれでいいとしても、

	Unicode の拡張結合文字列にマッチする。
	Unicode 拡張の結合文字列にマッチする。

のどちらが適しているかまだわからなくて、今は後者の方が近いのではないか
という印象を持っています。

From: SUZUKI Norio <kipp ＠ shonanblue.ne.jp>
Subject: [Tokyo.pm] Re: Unicode combining character sequence
Date: Wed, 18 Oct 2000 16:28:18 +0900

> combining character sequence の具体的な例は
> ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/APPLE/JAPANESE.TXT の
> 中に出てきます。
> 例えば、0xF860 0x0058 0x0056という結合文字列はXVというローマ数字（15）を
> 表わします。 XVというローマ数字は表示される場合は１文字です。

これ、一応見てみましたが、ここで言う "combining-character sequece" が、
base character とそれに続く combining character を表しているのか、ある
いは combining character の連続する部分を表しているのか、判断できない
ような気がしているのですが、読み足りない部分がありますでしょうか?

----------------------------------------------------------------------

現状ですが、

\X

	Match extended Unicode ``combining character sequence.''

	Unicode の結合文字列 (combining character sequence) にマッチする。

としました。

理由は、Unicode の仕様的にどうであれ、"combining character sequence" 
の訳語としては "結合文字列" がふさわしそうに思えること。さらに、
"extended" は、Unicode の *何らかの* 拡張と考えるよりは、「Perl の 
Unicdoe 拡張」と考えた方がよさそうで、「Unicode 拡張の結合文字列」とい
う不自然な日本語よりも、あっても無くても別段影響の無い「拡張」そのもの
を削除してしまっ方が、読みやすいのではないか、と判断したためです。

--utashiro