[Tokyo.pm] Re: 日本人の定義(CPAN author)

utashiro @ iij.ad.jp utashiro @ iij.ad.jp
2001年 6月 25日 (月) 06:58:58 CDT


From: Hirosi Taguti <taguti @ secom-sis.co.jp>
Subject: [Tokyo.pm] Re: 日本人の定義(CPAN author)
Date: Mon, 25 Jun 2001 18:16:37 +0900

> 確かに無謀だと思いますが、日本人の名前を認識するのはむつかしそう。

以前、ローマ字で書かれた日本語だか日本人の名前だかを探すのに、
romkan.pl で変換できたものを拾い出すという方法を使ってことがあります。
false positive もあるけど、絞り込み機能としては結構十分です。

% wc -l < /usr/share/dict/words 
  234941
% romkan.pl /usr/share/dict/words | perl -lne 'print if /[^ -~]/' | wc -l
   13225

ということで、関係ない部分を 1/20 近くには絞れる。変わった記法を使って
いる人は false negative になるかも。日本語ではあり得ないようなつながり
を省くと、もっと精度はあがるはず。

			*	*	*

ところで、大崎さんから romkan.pl-1.8 の問題を去年指摘されていながら、
そのまま放置していたことに気が付きました。romkan.pl-1.9 を作って (ci
しただけだけど)、以下に置きました。

	ftp://ftp.iij.ad.jp/pub/IIJ/dist/utashiro/perl/
	http://www.srekcah.org/~utashiro/perl/scripts/romkan_pl/

web の方は、一応トップページから jcode.pl のページにリンクを張ってあり
ます。他のも辿れば出て来る。いつの間にか index.html の無いページが見え
ないようになっていて、急拠作成したので問題があるかもしれません。

--utashiro



Tokyo-pm メーリングリストの案内