[Tokyo.pm] Re: 単語を含む文字列の出現回数

shin honda dev @ license.to
2002年 11月 19日 (火) 06:55:16 CST


まことです。

> 300万件では444804、
> $ grep yahoo URL_ALL.txt |wc -l
>  446667
> (少しだけ違う!)
> でも、300万件のファイルでも7分で終わりました。早すぎ。
forループを減らすのと正規表現を簡単にするのがポイントです^^;

> これで結果が正しければゲームオーバなんですが。(^_^)ゞ
while ($str =~ m|\b(\w{$N,})\b|g) { $word{$1}++ }
って所を
while ($str =~ m|\b(\w+)\b|g) { $word{$1}++ if(length($1) >= $N)}
とかにしたらどうでしょう?

> プログラムの理解はこれからします。
そんなに難しい事はしてない(と思うので)頑張ってください。
#おかしくないですよね?>識者の方

---------+---------+---------+---------+---------+---------+
SHIN HONDA            <makoto @ cpan.jp> "http://www.cpan.jp/"
          <makoto @ fes-total.com> "http://www.fes-total.com/"
FES Co., Ltd.        Tel:+81-46-278-1153 Fax:+81-46-275-0966





Tokyo-pm メーリングリストの案内