[Tokyo.pm] Unicode combining character sequence

utashiro @ iij.ad.jp utashiro @ iij.ad.jp
2000年 10月 18日 (水) 13:07:43 CDT


From: utashiro @ iij.ad.jp
Subject: [Tokyo.pm] Unicode combining character sequence
Date: Wed, 18 Oct 2000 01:54:40 +0900 (JST)

> もう一点 Unicode に関することで、"unicode property names" というのがあり
> ます (リファレンス 35ページ)。perlre には、
> 
>        If the utf8 pragma is used, the following equivalences to
>        Unicode \p{} constructs hold:
> 
>            alpha       IsAlpha
>            alnum       IsAlnum
>            ascii       IsASCII
>            cntrl       IsCntrl
>            digit       IsDigit
>            graph       IsGraph
>            lower       IsLower
>            print       IsPrint
>            punct       IsPunct
>            space       IsSpace
>            upper       IsUpper
>            word        IsWord
>            xdigit      IsXDigit
> 
> のような記述があります。さらに、perlunicode では、IsMirrored,
> InTibetan などが例として挙げられています。
> 
> "property" については、Unicode の仕様で定義されています。しかし、
> "property name" は見付かりません。つまり、上の IsAlpha, IsAlnum などの
> 名前はどこで定義されているのかが不明なのです。property name に Is が付
> いているとは思えないので、それは外してもいいです。
> 
> Unicode の仕様を読んでも、プログラミングインタフェースに関する記述は見
> 当たりません。何か別の仕様で定義されているのでしょうか?
> 
> 具体的には、35ページの
> 
> 	POSIX classes are used inside character classes, like [[:alpha:]].
> 	These are the POSIX classes and their Unicode property names:
> 
> をどう訳すかなのですが、現在は
> 
> 	以下に、POSIX クラスとその Unicode 属性名を示す。
> 
> となっています。

From: maeda @ tokyo.pm.org
Subject: Re: [Tokyo.pm] Unicode combining character sequence
Date: Wed, 18 Oct 2000 10:22:44 +0900 (JST)

>  以下に、POSIX クラスとその Unicode 属性名を示す。
> 
> 原語の情報はすべて運んでいますから、これでよいのでは? 原語の持っ
> てない情報を訳注として書けるならいいですが、あえて詳しく調べるま
> でもないと思いますけど。

まあ、そうは思っているから 「p.s. 考えすぎでしょうか。」と書いてるんで
すが :)、本当に「すべて」かというと、そうでもないと思います。

この例であれば、「Unicode 属性名」か「Unicode 属性の名前」か、くらいの
違いなんですが、厳密に意味を定義しようとすればどちらも同じになるものの、
読者に与える影響にはそれなりの違いがあるはずです (「建国記念日」と「建
国記念の日」の違いに似てるかも)。

前のメールにも書いたように、原文の持つ曖昧さを間違った方向に無くすこと
を気にしています。

----------------------------------------------------------------------
結局、

	POSIX classes are used inside character classes, like
	[[:alpha:]].  These are the POSIX classes and their Unicode
	property names:

	[[:alpha:]] のような POSIX クラスを文字クラス内で使うことがで
	きる。以下に、POSIX クラスとその Unicode 属性の指定法を示す。

としてます。

"Unicode property name" に特別な意味が無いのであれば、ここで伝えたいの
は、Unicode 属性を Perl のプログラミングインタフェースとして、どう指定
するかということだという判断です。

--utashiro



Tokyo-pm メーリングリストの案内