[Tokyo.pm] Re: 日本人の定義(CPAN author)
utashiro @ iij.ad.jp
utashiro @ iij.ad.jp
2001年 6月 25日 (月) 06:58:58 CDT
From: Hirosi Taguti <taguti @ secom-sis.co.jp>
Subject: [Tokyo.pm] Re: 日本人の定義(CPAN author)
Date: Mon, 25 Jun 2001 18:16:37 +0900
> 確かに無謀だと思いますが、日本人の名前を認識するのはむつかしそう。
以前、ローマ字で書かれた日本語だか日本人の名前だかを探すのに、
romkan.pl で変換できたものを拾い出すという方法を使ってことがあります。
false positive もあるけど、絞り込み機能としては結構十分です。
% wc -l < /usr/share/dict/words
234941
% romkan.pl /usr/share/dict/words | perl -lne 'print if /[^ -~]/' | wc -l
13225
ということで、関係ない部分を 1/20 近くには絞れる。変わった記法を使って
いる人は false negative になるかも。日本語ではあり得ないようなつながり
を省くと、もっと精度はあがるはず。
* * *
ところで、大崎さんから romkan.pl-1.8 の問題を去年指摘されていながら、
そのまま放置していたことに気が付きました。romkan.pl-1.9 を作って (ci
しただけだけど)、以下に置きました。
ftp://ftp.iij.ad.jp/pub/IIJ/dist/utashiro/perl/
http://www.srekcah.org/~utashiro/perl/scripts/romkan_pl/
web の方は、一応トップページから jcode.pl のページにリンクを張ってあり
ます。他のも辿れば出て来る。いつの間にか index.html の無いページが見え
ないようになっていて、急拠作成したので問題があるかもしれません。
--utashiro
Tokyo-pm メーリングリストの案内