[PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题

Jester jester at perlchina.org
Fri Oct 26 01:45:33 PDT 2007


呵呵,不用担心,上百万记录的数据我都处理过,没有遇到过什么问题。

Jester

----- Original Message ----- 
From: "zongzi" <honghunter at gmail.com>
To: <china-pm at pm.org>
Sent: Friday, October 26, 2007 4:12 PM
Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题


> 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。
> 
> 俺以前处理的最多也就上千条数据。
> 
> 
> 在07-10-26,zongzi <honghunter at gmail.com> 写道:
> >
> > 首先,谢谢各位的回复。
> >
> > To Jester:
> >
> > 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为
> > aaaa at bbb.com中的aaaa部分<aaaa at bbb.com%E4%B8%AD%E7%9A%84aaaa%E9%83%A8%E5%88%86>
> > 。
> > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。
> >
> >
> > To Achilles Xu:
> > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。
> >
> >
> > 在07-10-26,Achilles Xu < formalin14 at gmail.com> 写道:
> > >
> > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c
> > >
> > > 在07-10-26,Jester <jester at perlchina.org > 写道:
> > > >
> > > > 说的不太清楚,到达比较什么?最好给点example data。
> > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。
> > > >
> > > > Jester
> > > >
> > > > ----- Original Message -----
> > > > From: "zongzi" <honghunter at gmail.com>
> > > > To: < python-chinese at lists.python.cn >; <china-pm at pm.org>
> > > > Sent: Friday, October 26, 2007 12:35 PM
> > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题
> > > >
> > > >
> > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。
> > > > >
> > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。
> > > > >
> > > > > 我本来是想直接放进数组,然后一个一个比较的。
> > > > >
> > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。
> > > > >
> > > > > 所以想请教一下各位,有啥好的处理思路吗?
> > > > >
> > > > >
> > > > >
> > > > > --
> > > > > 这是一个有钱人的世界,与我的世界截然不同!
> > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > > > > 饭否? http://fanfou.com/zongzi
> > > > >
> > > >
> > > >
> > > >
> > > > --------------------------------------------------------------------------------
> > > >
> > > >
> > > > > _______________________________________________
> > > > > China-pm mailing list
> > > > > China-pm at pm.org
> > > > > http://mail.pm.org/mailman/listinfo/china-pm
> > > > _______________________________________________
> > > > China-pm mailing list
> > > > China-pm at pm.org
> > > > http://mail.pm.org/mailman/listinfo/china-pm
> > >
> > >
> > >
> > >
> > > --
> > > ---------------------------
> > > Achilles Xu
> > > http://www.lostcode.org
> > > _______________________________________________
> > > China-pm mailing list
> > > China-pm at pm.org
> > > http://mail.pm.org/mailman/listinfo/china-pm
> > >
> >
> >
> >
> > --
> > 这是一个有钱人的世界,与我的世界截然不同!
> > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > 饭否?http://fanfou.com/zongzi
> >
> 
> 
> 
> -- 
> 这是一个有钱人的世界,与我的世界截然不同!
> blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> 饭否?http://fanfou.com/zongzi
> 


--------------------------------------------------------------------------------


> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm


More information about the China-pm mailing list