nod, 只要内存够, 数据还是在内存里算比较快.<br><br><div><span class="gmail_quote">在07-10-26,<b class="gmail_sendername">Jester</b> &lt;<a href="mailto:jester@perlchina.org">jester@perlchina.org</a>&gt; 写道:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
呵呵,不用担心,上百万记录的数据我都处理过,没有遇到过什么问题。<br><br>Jester<br><br>----- Original Message -----<br>From: &quot;zongzi&quot; &lt;<a href="mailto:honghunter@gmail.com">honghunter@gmail.com</a>&gt;<br>To: &lt;<a href="mailto:china-pm@pm.org">
china-pm@pm.org</a>&gt;<br>Sent: Friday, October 26, 2007 4:12 PM<br>Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题<br><br><br>&gt; 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。<br>&gt;<br>&gt; 俺以前处理的最多也就上千条数据。<br>&gt;<br>&gt;<br>
&gt; 在07-10-26,zongzi &lt;<a href="mailto:honghunter@gmail.com">honghunter@gmail.com</a>&gt; 写道:<br>&gt; &gt;<br>&gt; &gt; 首先,谢谢各位的回复。<br>&gt; &gt;<br>&gt; &gt; To Jester:<br>&gt; &gt;<br>&gt; &gt; 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为
<br>&gt; &gt; <a href="mailto:aaaa@bbb.com中的aaaa部分">aaaa@bbb.com中的aaaa部分</a>&lt;aaaa@bbb.com%E4%B8%AD%E7%9A%84aaaa%E9%83%A8%E5%88%86&gt;<br>&gt; &gt; 。<br>&gt; &gt; 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。<br>&gt; &gt;<br>&gt; &gt;
<br>&gt; &gt; To Achilles Xu:<br>&gt; &gt; 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt; 在07-10-26,Achilles Xu &lt; <a href="mailto:formalin14@gmail.com">formalin14@gmail.com</a>&gt; 写道:
<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; cat aaa.log | grep keyword | awk &#39;{print $6}&#39; | sort | uniq -c<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; 在07-10-26,Jester &lt;<a href="mailto:jester@perlchina.org">jester@perlchina.org
</a> &gt; 写道:<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; 说的不太清楚,到达比较什么?最好给点example data。<br>&gt; &gt; &gt; &gt; 做比较,最好用hash,用array需要大量的循环,非常慢的。<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; Jester<br>&gt; &gt; &gt; &gt;
<br>&gt; &gt; &gt; &gt; ----- Original Message -----<br>&gt; &gt; &gt; &gt; From: &quot;zongzi&quot; &lt;<a href="mailto:honghunter@gmail.com">honghunter@gmail.com</a>&gt;<br>&gt; &gt; &gt; &gt; To: &lt; <a href="mailto:python-chinese@lists.python.cn">
python-chinese@lists.python.cn</a> &gt;; &lt;<a href="mailto:china-pm@pm.org">china-pm@pm.org</a>&gt;<br>&gt; &gt; &gt; &gt; Sent: Friday, October 26, 2007 12:35 PM<br>&gt; &gt; &gt; &gt; Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题
<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; 这是一个桌面使用的脚本,系统维护工作中使用的。<br>&gt; &gt; &gt; &gt; &gt;
<br>&gt; &gt; &gt; &gt; &gt; 我本来是想直接放进数组,然后一个一个比较的。<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; 所以想请教一下各位,有啥好的处理思路吗?<br>
&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; --<br>&gt; &gt; &gt; &gt; &gt; 这是一个有钱人的世界,与我的世界截然不同!<br>&gt; &gt; &gt; &gt; &gt; blog:<a href="http://www.dps4e.com/b/">
http://www.dps4e.com/b/</a> &amp; <a href="http://blog.dps4e.com">http://blog.dps4e.com</a><br>&gt; &gt; &gt; &gt; &gt; 饭否? <a href="http://fanfou.com/zongzi">http://fanfou.com/zongzi</a><br>&gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;
<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; --------------------------------------------------------------------------------<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; _______________________________________________
<br>&gt; &gt; &gt; &gt; &gt; China-pm mailing list<br>&gt; &gt; &gt; &gt; &gt; <a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br>&gt; &gt; &gt; &gt; &gt; <a href="http://mail.pm.org/mailman/listinfo/china-pm">http://mail.pm.org/mailman/listinfo/china-pm
</a><br>&gt; &gt; &gt; &gt; _______________________________________________<br>&gt; &gt; &gt; &gt; China-pm mailing list<br>&gt; &gt; &gt; &gt; <a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br>&gt; &gt; &gt; &gt; <a href="http://mail.pm.org/mailman/listinfo/china-pm">
http://mail.pm.org/mailman/listinfo/china-pm</a><br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt;<br>&gt; &gt; &gt; --<br>&gt; &gt; &gt; ---------------------------<br>&gt; &gt; &gt; Achilles Xu<br>
&gt; &gt; &gt; <a href="http://www.lostcode.org">http://www.lostcode.org</a><br>&gt; &gt; &gt; _______________________________________________<br>&gt; &gt; &gt; China-pm mailing list<br>&gt; &gt; &gt; <a href="mailto:China-pm@pm.org">
China-pm@pm.org</a><br>&gt; &gt; &gt; <a href="http://mail.pm.org/mailman/listinfo/china-pm">http://mail.pm.org/mailman/listinfo/china-pm</a><br>&gt; &gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt;<br>&gt; &gt; --<br>&gt; &gt; 这是一个有钱人的世界,与我的世界截然不同!
<br>&gt; &gt; blog:<a href="http://www.dps4e.com/b/">http://www.dps4e.com/b/</a> &amp; <a href="http://blog.dps4e.com">http://blog.dps4e.com</a><br>&gt; &gt; 饭否?<a href="http://fanfou.com/zongzi">http://fanfou.com/zongzi</a>
<br>&gt; &gt;<br>&gt;<br>&gt;<br>&gt;<br>&gt; --<br>&gt; 这是一个有钱人的世界,与我的世界截然不同!<br>&gt; blog:<a href="http://www.dps4e.com/b/">http://www.dps4e.com/b/</a> &amp; <a href="http://blog.dps4e.com">http://blog.dps4e.com</a><br>
&gt; 饭否?<a href="http://fanfou.com/zongzi">http://fanfou.com/zongzi</a><br>&gt;<br><br><br>--------------------------------------------------------------------------------<br><br><br>&gt; _______________________________________________
<br>&gt; China-pm mailing list<br>&gt; <a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br>&gt; <a href="http://mail.pm.org/mailman/listinfo/china-pm">http://mail.pm.org/mailman/listinfo/china-pm</a><br>_______________________________________________
<br>China-pm mailing list<br><a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br><a href="http://mail.pm.org/mailman/listinfo/china-pm">http://mail.pm.org/mailman/listinfo/china-pm</a></blockquote></div><br><br clear="all">
<br>-- <br>---------------------------<br>Achilles Xu<br><a href="http://www.lostcode.org">http://www.lostcode.org</a>