[PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题

Jester jester at perlchina.org
Fri Oct 26 01:38:22 PDT 2007


哦,这很简单呀。
读取数据,逐行找人名字(估计是在固定的column吧),把它转变成简称,比如Zhang san,简称可能是zhangs(当然,这看你们的要求咯)。
然后把这个信息存储到hash:
push @{$info{'zhangs'}}, 'Zhang san'; 或者如果办公室需要详细的信息,就把后面的'Zhang san'换成\@array(对这个员工详细信息@array的引用)。
如此,这样等你读取完了所有数据,做一个循环:
foreach my $brief (sort(keys %info))
{ next unless @{$info{$brief}}>1; #如果是一就是unique的
  ……#按照你希望的格式输出吧
}

我觉得执行起来应该挺快的。


Jester

----- Original Message ----- 
From: "zongzi" <honghunter at gmail.com>
To: <china-pm at pm.org>
Sent: Friday, October 26, 2007 4:10 PM
Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题


> 首先,谢谢各位的回复。
> 
> To Jester:
> 
> 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为
> aaaa at bbb.com中的aaaa部分。
> 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。
> 
> 
> To Achilles Xu:
> 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。
> 
> 
> 在07-10-26,Achilles Xu <formalin14 at gmail.com> 写道:
> >
> > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c
> >
> > 在07-10-26,Jester <jester at perlchina.org > 写道:
> > >
> > > 说的不太清楚,到达比较什么?最好给点example data。
> > > 做比较,最好用hash,用array需要大量的循环,非常慢的。
> > >
> > > Jester
> > >
> > > ----- Original Message -----
> > > From: "zongzi" <honghunter at gmail.com>
> > > To: <python-chinese at lists.python.cn >; <china-pm at pm.org>
> > > Sent: Friday, October 26, 2007 12:35 PM
> > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题
> > >
> > >
> > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。
> > > >
> > > > 这是一个桌面使用的脚本,系统维护工作中使用的。
> > > >
> > > > 我本来是想直接放进数组,然后一个一个比较的。
> > > >
> > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。
> > > >
> > > > 所以想请教一下各位,有啥好的处理思路吗?
> > > >
> > > >
> > > >
> > > > --
> > > > 这是一个有钱人的世界,与我的世界截然不同!
> > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > > > 饭否? http://fanfou.com/zongzi
> > > >
> > >
> > >
> > >
> > > --------------------------------------------------------------------------------
> > >
> > >
> > > > _______________________________________________
> > > > China-pm mailing list
> > > > China-pm at pm.org
> > > > http://mail.pm.org/mailman/listinfo/china-pm
> > > _______________________________________________
> > > China-pm mailing list
> > > China-pm at pm.org
> > > http://mail.pm.org/mailman/listinfo/china-pm
> >
> >
> >
> >
> > --
> > ---------------------------
> > Achilles Xu
> > http://www.lostcode.org
> > _______________________________________________
> > China-pm mailing list
> > China-pm at pm.org
> > http://mail.pm.org/mailman/listinfo/china-pm
> >
> 
> 
> 
> -- 
> 这是一个有钱人的世界,与我的世界截然不同!
> blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> 饭否?http://fanfou.com/zongzi
> 


--------------------------------------------------------------------------------


> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm


More information about the China-pm mailing list