[Tokyo.pm] utf-8 用の "word" char って？

2003年 11月 20日 (木) 23:01:38 CST

岡部です．

>Perlのソノ部分担当の弾です。

まいど．utf8 って書けば召喚できるかな，と期待してました． (^^)

>ちょっと定義が曖昧でわかりません。要するに、漢字なら漢字、カタカナならカタ
>カナ、ひらがなならひらがなだけ抜き出せればよいのでしょうか？あるい 
>は、日本語としてOKな文字をすべて取り出すという意味でしょうか？とりあえず前
>者の場合を想定すると.....

すいません．出してから，あいまいな定義を書いちゃったと思ったのですが，
修正する前にお返事をいただきました．両方とものことを同時に考えていました．

で，前者については

>     my @words =  /(\p{Han}+|\p{Hiragana}+|\p{Katakana}+|\p{latin}+)/g;

で，ばっちりです．perlre とかばかりみていて，perlunicodeは見ていませんでした．
ありがとうございます．

次に後者の方　「日本語としてOKな文字をすべて抜き出す」ということは
可能なのでしょうか？ これは何かで使うというよりは参考にお伺いしたいです．
unicode（から／への）変換には変換テーブルを使用するでしょうから，変換テーブル
に乗っている文字であれば日本語とみなすことで判断できるのかな，と
考えました．

# そうだとしても，どうやって使うのかなぁ～って感じですが…
-- 
k.okabe ＠ ntt-bb.com  岡部 恵一
成功出於衆者、先知也、先知者、必取於人、知敵之情者也
          孫子 用間篇 第十三