[PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题

Achilles Xu formalin14 at gmail.com
Fri Oct 26 02:36:00 PDT 2007


nod, 只要内存够, 数据还是在内存里算比较快.

在07-10-26,Jester <jester at perlchina.org> 写道:
>
> 呵呵,不用担心,上百万记录的数据我都处理过,没有遇到过什么问题。
>
> Jester
>
> ----- Original Message -----
> From: "zongzi" <honghunter at gmail.com>
> To: <china-pm at pm.org>
> Sent: Friday, October 26, 2007 4:12 PM
> Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题
>
>
> > 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。
> >
> > 俺以前处理的最多也就上千条数据。
> >
> >
> > 在07-10-26,zongzi <honghunter at gmail.com> 写道:
> > >
> > > 首先,谢谢各位的回复。
> > >
> > > To Jester:
> > >
> > >
> 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为
> > > aaaa at bbb.com中的aaaa部分<aaaa at bbb.com
> %E4%B8%AD%E7%9A%84aaaa%E9%83%A8%E5%88%86>
> > > 。
> > > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。
> > >
> > >
> > > To Achilles Xu:
> > > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。
> > >
> > >
> > > 在07-10-26,Achilles Xu < formalin14 at gmail.com> 写道:
> > > >
> > > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c
> > > >
> > > > 在07-10-26,Jester <jester at perlchina.org > 写道:
> > > > >
> > > > > 说的不太清楚,到达比较什么?最好给点example data。
> > > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。
> > > > >
> > > > > Jester
> > > > >
> > > > > ----- Original Message -----
> > > > > From: "zongzi" <honghunter at gmail.com>
> > > > > To: < python-chinese at lists.python.cn >; <china-pm at pm.org>
> > > > > Sent: Friday, October 26, 2007 12:35 PM
> > > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题
> > > > >
> > > > >
> > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。
> > > > > >
> > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。
> > > > > >
> > > > > > 我本来是想直接放进数组,然后一个一个比较的。
> > > > > >
> > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。
> > > > > >
> > > > > > 所以想请教一下各位,有啥好的处理思路吗?
> > > > > >
> > > > > >
> > > > > >
> > > > > > --
> > > > > > 这是一个有钱人的世界,与我的世界截然不同!
> > > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > > > > > 饭否? http://fanfou.com/zongzi
> > > > > >
> > > > >
> > > > >
> > > > >
> > > > >
> --------------------------------------------------------------------------------
> > > > >
> > > > >
> > > > > > _______________________________________________
> > > > > > China-pm mailing list
> > > > > > China-pm at pm.org
> > > > > > http://mail.pm.org/mailman/listinfo/china-pm
> > > > > _______________________________________________
> > > > > China-pm mailing list
> > > > > China-pm at pm.org
> > > > > http://mail.pm.org/mailman/listinfo/china-pm
> > > >
> > > >
> > > >
> > > >
> > > > --
> > > > ---------------------------
> > > > Achilles Xu
> > > > http://www.lostcode.org
> > > > _______________________________________________
> > > > China-pm mailing list
> > > > China-pm at pm.org
> > > > http://mail.pm.org/mailman/listinfo/china-pm
> > > >
> > >
> > >
> > >
> > > --
> > > 这是一个有钱人的世界,与我的世界截然不同!
> > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > > 饭否?http://fanfou.com/zongzi
> > >
> >
> >
> >
> > --
> > 这是一个有钱人的世界,与我的世界截然不同!
> > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com
> > 饭否?http://fanfou.com/zongzi
> >
>
>
>
> --------------------------------------------------------------------------------
>
>
> > _______________________________________________
> > China-pm mailing list
> > China-pm at pm.org
> > http://mail.pm.org/mailman/listinfo/china-pm
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm




-- 
---------------------------
Achilles Xu
http://www.lostcode.org
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/e33dac2b/attachment-0001.html 


More information about the China-pm mailing list