From cdrplum at gmail.com Thu Oct 25 07:28:06 2007 From: cdrplum at gmail.com (Jesse Lee) Date: Thu, 25 Oct 2007 22:28:06 +0800 Subject: [PerlChina] =?utf-8?b?5YGc5q2iL+W8gOWniyBQZXJsIOiEmuacrOWQjg==?= =?utf-8?b?5Y+w5qih5byP6L+Q6KGM?= In-Reply-To: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> Message-ID: <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> 大家好, 想问个问题,昨天执行了一个脚本 daemon mode, 后来文件修改了一次,又执行了一次命令 # perl myfile.pl & ,发现运行了两个不同的内容。 问一下怎么停止脚本的后台运行?这些运行在哪个文件里? 谢谢 --- http://www.digbuzz.com/ -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071025/e0c573d8/attachment.html From robbiecn at gmail.com Thu Oct 25 07:51:06 2007 From: robbiecn at gmail.com (=?GB2312?B?s8LRp8fb?=) Date: Thu, 25 Oct 2007 22:51:06 +0800 Subject: [PerlChina] =?gb2312?b?zaPWuS+/qsq8IFBlcmwgvcWxvrrzzKjEo8q91Ms=?= =?gb2312?b?0NA=?= In-Reply-To: <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> Message-ID: 在 07-10-25,Jesse Lee 写道: > 大家好, > > 想问个问题,昨天执行了一个脚本 daemon mode, 后来文件修改了一次,又执行了一次命令 > # perl myfile.pl & ,发现运行了两个不同的内容。 > 问一下怎么停止脚本的后台运行?这些运行在哪个文件里? > > 谢谢 如果你在同一个终端两次运行perl,后台方式,则可以用 jobs -l 命令找出后台的perl任务进程ID,再用kill -9 停止那个进程. 也可以用ps -aux | grep perl 查找出所有的perl进程,进而kill. -- /* *@author: chen xueqin *@email: robbiecn at gmail.com *@see: http://robbie.bokee.com *@see: http://groups.google.com/group/fzlug *@love: freedom,tux,open source */ From cdrplum at gmail.com Thu Oct 25 08:20:27 2007 From: cdrplum at gmail.com (Jesse Lee) Date: Thu, 25 Oct 2007 23:20:27 +0800 Subject: [PerlChina] =?utf-8?b?5YGc5q2iL+W8gOWniyBQZXJsIOiEmuacrOWQjg==?= =?utf-8?b?5Y+w5qih5byP6L+Q6KGM?= In-Reply-To: References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> Message-ID: <657728f60710250820p59a9566eqedc3160d721bf430@mail.gmail.com> 搞定了,谢谢! On 10/25/07, 陈学芹 wrote: > > 在 07-10-25,Jesse Lee 写道: > > 大家好, > > > > 想问个问题,昨天执行了一个脚本 daemon mode, 后来文件修改了一次,又执行了一次命令 > > # perl myfile.pl & ,发现运行了两个不同的内容。 > > 问一下怎么停止脚本的后台运行?这些运行在哪个文件里? > > > > 谢谢 > 如果你在同一个终端两次运行perl,后台方式,则可以用 > jobs -l > 命令找出后台的perl任务进程ID,再用kill -9 停止那个进程. > > 也可以用ps -aux | grep perl 查找出所有的perl进程,进而kill. > > > > > -- > /* > *@author: chen xueqin > *@email: robbiecn at gmail.com > *@see: http://robbie.bokee.com > *@see: http://groups.google.com/group/fzlug > *@love: freedom,tux,open source > */ > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm -- http://www.digbuzz.com/ Web 2.0 用户挖新闻社区 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071025/27fcdc14/attachment.html From honghunter at gmail.com Thu Oct 25 21:35:03 2007 From: honghunter at gmail.com (zongzi) Date: Fri, 26 Oct 2007 12:35:03 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= Message-ID: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 这是一个桌面使用的脚本,系统维护工作中使用的。 我本来是想直接放进数组,然后一个一个比较的。 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 所以想请教一下各位,有啥好的处理思路吗? -- 这是一个有钱人的世界,与我的世界截然不同! blog:http://www.dps4e.com/b/ & http://blog.dps4e.com 饭否? http://fanfou.com/zongzi -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/539b64fe/attachment.html From jester at perlchina.org Thu Oct 25 23:24:09 2007 From: jester at perlchina.org (Jester) Date: Fri, 26 Oct 2007 14:24:09 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> Message-ID: <003401c81798$da233f30$2f03000a@jester> 说的不太清楚,到达比较什么?最好给点example data。 做比较,最好用hash,用array需要大量的循环,非常慢的。 Jester ----- Original Message ----- From: "zongzi" To: ; Sent: Friday, October 26, 2007 12:35 PM Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > 我本来是想直接放进数组,然后一个一个比较的。 > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > 所以想请教一下各位,有啥好的处理思路吗? > > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > 饭否? http://fanfou.com/zongzi > -------------------------------------------------------------------------------- > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm From formalin14 at gmail.com Thu Oct 25 23:37:31 2007 From: formalin14 at gmail.com (Achilles Xu) Date: Fri, 26 Oct 2007 14:37:31 +0800 Subject: [PerlChina] =?gb2312?b?x+u9zNK7uPbOyszio6y9xbG+seCzzMqxuvK1xLTz?= =?gb2312?b?yv2+3cG/sci9z87KzOI=?= In-Reply-To: <003401c81798$da233f30$2f03000a@jester> References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> <003401c81798$da233f30$2f03000a@jester> Message-ID: <4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c 在07-10-26,Jester 写道: > > 说的不太清楚,到达比较什么?最好给点example data。 > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > Jester > > ----- Original Message ----- > From: "zongzi" > To: ; > Sent: Friday, October 26, 2007 12:35 PM > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > -- > > 这是一个有钱人的世界,与我的世界截然不同! > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > 饭否? http://fanfou.com/zongzi > > > > > > -------------------------------------------------------------------------------- > > > > _______________________________________________ > > China-pm mailing list > > China-pm at pm.org > > http://mail.pm.org/mailman/listinfo/china-pm > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm -- --------------------------- Achilles Xu http://www.lostcode.org -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/5e77bdf4/attachment.html From honghunter at gmail.com Fri Oct 26 01:10:06 2007 From: honghunter at gmail.com (zongzi) Date: Fri, 26 Oct 2007 16:10:06 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= In-Reply-To: <4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> <003401c81798$da233f30$2f03000a@jester> <4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> Message-ID: <1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> 首先,谢谢各位的回复。 To Jester: 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为 aaaa at bbb.com中的aaaa部分。 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。 To Achilles Xu: 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。 在07-10-26,Achilles Xu 写道: > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c > > 在07-10-26,Jester 写道: > > > > 说的不太清楚,到达比较什么?最好给点example data。 > > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > > > Jester > > > > ----- Original Message ----- > > From: "zongzi" > > To: ; > > Sent: Friday, October 26, 2007 12:35 PM > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > > > > > -- > > > 这是一个有钱人的世界,与我的世界截然不同! > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > 饭否? http://fanfou.com/zongzi > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > _______________________________________________ > > > China-pm mailing list > > > China-pm at pm.org > > > http://mail.pm.org/mailman/listinfo/china-pm > > _______________________________________________ > > China-pm mailing list > > China-pm at pm.org > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > -- > --------------------------- > Achilles Xu > http://www.lostcode.org > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm > -- 这是一个有钱人的世界,与我的世界截然不同! blog:http://www.dps4e.com/b/ & http://blog.dps4e.com 饭否?http://fanfou.com/zongzi -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/5132cf48/attachment.html From honghunter at gmail.com Fri Oct 26 01:12:25 2007 From: honghunter at gmail.com (zongzi) Date: Fri, 26 Oct 2007 16:12:25 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= In-Reply-To: <1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> <003401c81798$da233f30$2f03000a@jester> <4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> <1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> Message-ID: <1700c2710710260112g7d0d010fnab393cddbc5380e4@mail.gmail.com> 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。 俺以前处理的最多也就上千条数据。 在07-10-26,zongzi 写道: > > 首先,谢谢各位的回复。 > > To Jester: > > 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为 > aaaa at bbb.com中的aaaa部分 > 。 > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。 > > > To Achilles Xu: > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。 > > > 在07-10-26,Achilles Xu < formalin14 at gmail.com> 写道: > > > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c > > > > 在07-10-26,Jester 写道: > > > > > > 说的不太清楚,到达比较什么?最好给点example data。 > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > > > > > Jester > > > > > > ----- Original Message ----- > > > From: "zongzi" > > > To: < python-chinese at lists.python.cn >; > > > Sent: Friday, October 26, 2007 12:35 PM > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > > > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > > > > > > > > > -- > > > > 这是一个有钱人的世界,与我的世界截然不同! > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > > 饭否? http://fanfou.com/zongzi > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > _______________________________________________ > > > > China-pm mailing list > > > > China-pm at pm.org > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > _______________________________________________ > > > China-pm mailing list > > > China-pm at pm.org > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > -- > > --------------------------- > > Achilles Xu > > http://www.lostcode.org > > _______________________________________________ > > China-pm mailing list > > China-pm at pm.org > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > 饭否?http://fanfou.com/zongzi > -- 这是一个有钱人的世界,与我的世界截然不同! blog:http://www.dps4e.com/b/ & http://blog.dps4e.com 饭否?http://fanfou.com/zongzi -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/d83ae4e0/attachment-0001.html From jester at perlchina.org Fri Oct 26 01:38:22 2007 From: jester at perlchina.org (Jester) Date: Fri, 26 Oct 2007 16:38:22 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com><003401c81798$da233f30$2f03000a@jester><4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> <1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> Message-ID: <005001c817ab$94e68180$2f03000a@jester> 哦,这很简单呀。 读取数据,逐行找人名字(估计是在固定的column吧),把它转变成简称,比如Zhang san,简称可能是zhangs(当然,这看你们的要求咯)。 然后把这个信息存储到hash: push @{$info{'zhangs'}}, 'Zhang san'; 或者如果办公室需要详细的信息,就把后面的'Zhang san'换成\@array(对这个员工详细信息@array的引用)。 如此,这样等你读取完了所有数据,做一个循环: foreach my $brief (sort(keys %info)) { next unless @{$info{$brief}}>1; #如果是一就是unique的 ……#按照你希望的格式输出吧 } 我觉得执行起来应该挺快的。 Jester ----- Original Message ----- From: "zongzi" To: Sent: Friday, October 26, 2007 4:10 PM Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > 首先,谢谢各位的回复。 > > To Jester: > > 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为 > aaaa at bbb.com中的aaaa部分。 > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。 > > > To Achilles Xu: > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。 > > > 在07-10-26,Achilles Xu 写道: > > > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c > > > > 在07-10-26,Jester 写道: > > > > > > 说的不太清楚,到达比较什么?最好给点example data。 > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > > > > > Jester > > > > > > ----- Original Message ----- > > > From: "zongzi" > > > To: ; > > > Sent: Friday, October 26, 2007 12:35 PM > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > > > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > > > > > > > > > -- > > > > 这是一个有钱人的世界,与我的世界截然不同! > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > > 饭否? http://fanfou.com/zongzi > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > _______________________________________________ > > > > China-pm mailing list > > > > China-pm at pm.org > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > _______________________________________________ > > > China-pm mailing list > > > China-pm at pm.org > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > -- > > --------------------------- > > Achilles Xu > > http://www.lostcode.org > > _______________________________________________ > > China-pm mailing list > > China-pm at pm.org > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > 饭否?http://fanfou.com/zongzi > -------------------------------------------------------------------------------- > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm From jester at perlchina.org Fri Oct 26 01:45:33 2007 From: jester at perlchina.org (Jester) Date: Fri, 26 Oct 2007 16:45:33 +0800 Subject: [PerlChina] =?utf-8?b?6K+35pWZ5LiA5Liq6Zeu6aKY77yM6ISa5pys57yW?= =?utf-8?b?56iL5pe25YCZ55qE5aSn5pWw5o2u6YeP5q+U6L6D6Zeu6aKY?= References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com><003401c81798$da233f30$2f03000a@jester><4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com><1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> <1700c2710710260112g7d0d010fnab393cddbc5380e4@mail.gmail.com> Message-ID: <006401c817ac$97253170$2f03000a@jester> 呵呵,不用担心,上百万记录的数据我都处理过,没有遇到过什么问题。 Jester ----- Original Message ----- From: "zongzi" To: Sent: Friday, October 26, 2007 4:12 PM Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。 > > 俺以前处理的最多也就上千条数据。 > > > 在07-10-26,zongzi 写道: > > > > 首先,谢谢各位的回复。 > > > > To Jester: > > > > 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为 > > aaaa at bbb.com中的aaaa部分 > > 。 > > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。 > > > > > > To Achilles Xu: > > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。 > > > > > > 在07-10-26,Achilles Xu < formalin14 at gmail.com> 写道: > > > > > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c > > > > > > 在07-10-26,Jester 写道: > > > > > > > > 说的不太清楚,到达比较什么?最好给点example data。 > > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > > > > > > > Jester > > > > > > > > ----- Original Message ----- > > > > From: "zongzi" > > > > To: < python-chinese at lists.python.cn >; > > > > Sent: Friday, October 26, 2007 12:35 PM > > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > > > > > > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > > > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > > > > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > > > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > > > > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > > > > > > > > > > > > > -- > > > > > 这是一个有钱人的世界,与我的世界截然不同! > > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > > > 饭否? http://fanfou.com/zongzi > > > > > > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > > > > _______________________________________________ > > > > > China-pm mailing list > > > > > China-pm at pm.org > > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > _______________________________________________ > > > > China-pm mailing list > > > > China-pm at pm.org > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > > > > > > -- > > > --------------------------- > > > Achilles Xu > > > http://www.lostcode.org > > > _______________________________________________ > > > China-pm mailing list > > > China-pm at pm.org > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > > -- > > 这是一个有钱人的世界,与我的世界截然不同! > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > 饭否?http://fanfou.com/zongzi > > > > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > 饭否?http://fanfou.com/zongzi > -------------------------------------------------------------------------------- > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm From formalin14 at gmail.com Fri Oct 26 02:36:00 2007 From: formalin14 at gmail.com (Achilles Xu) Date: Fri, 26 Oct 2007 17:36:00 +0800 Subject: [PerlChina] =?gb2312?b?x+u9zNK7uPbOyszio6y9xbG+seCzzMqxuvK1xLTz?= =?gb2312?b?yv2+3cG/sci9z87KzOI=?= In-Reply-To: <006401c817ac$97253170$2f03000a@jester> References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> <003401c81798$da233f30$2f03000a@jester> <4a6c0ba80710252337l4e17951cg1e92bc949f2686f4@mail.gmail.com> <1700c2710710260110n1933410sad78fd65673d0a29@mail.gmail.com> <1700c2710710260112g7d0d010fnab393cddbc5380e4@mail.gmail.com> <006401c817ac$97253170$2f03000a@jester> Message-ID: <4a6c0ba80710260236q587872f5pbbaac02512093789@mail.gmail.com> nod, 只要内存够, 数据还是在内存里算比较快. 在07-10-26,Jester 写道: > > 呵呵,不用担心,上百万记录的数据我都处理过,没有遇到过什么问题。 > > Jester > > ----- Original Message ----- > From: "zongzi" > To: > Sent: Friday, October 26, 2007 4:12 PM > Subject: Re: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > 对了,我是想要用hash的,不过不知道对于上几万的数据,会不会有问题。 > > > > 俺以前处理的最多也就上千条数据。 > > > > > > 在07-10-26,zongzi 写道: > > > > > > 首先,谢谢各位的回复。 > > > > > > To Jester: > > > > > > > 具体数据是一堆人员信息(包括总部和分公司的),现在是要找出特定一个分公司的全部人员中,简称重复的那些人员。然后交给办公室的人,办公室的人弄成唯一的之后,我再用这些唯一性的简称,为他们创建邮件帐号。就是用简称作为 > > > aaaa at bbb.com中的aaaa部分 %E4%B8%AD%E7%9A%84aaaa%E9%83%A8%E5%88%86> > > > 。 > > > 原始人员信息在一个Notes的NSF库里面,我准备导出成txt处理。 > > > > > > > > > To Achilles Xu: > > > 看起来您是linux下的高手啊,可惜我对linux了解有限,客户这里也都是MS操作系统的机器。 > > > > > > > > > 在07-10-26,Achilles Xu < formalin14 at gmail.com> 写道: > > > > > > > > cat aaa.log | grep keyword | awk '{print $6}' | sort | uniq -c > > > > > > > > 在07-10-26,Jester 写道: > > > > > > > > > > 说的不太清楚,到达比较什么?最好给点example data。 > > > > > 做比较,最好用hash,用array需要大量的循环,非常慢的。 > > > > > > > > > > Jester > > > > > > > > > > ----- Original Message ----- > > > > > From: "zongzi" > > > > > To: < python-chinese at lists.python.cn >; > > > > > Sent: Friday, October 26, 2007 12:35 PM > > > > > Subject: [PerlChina] 请教一个问题,脚本编程时候的大数据量比较问题 > > > > > > > > > > > > > > > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > > > > > > > > > > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > > > > > > > > > > > 我本来是想直接放进数组,然后一个一个比较的。 > > > > > > > > > > > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > > > > > > > > > > > 所以想请教一下各位,有啥好的处理思路吗? > > > > > > > > > > > > > > > > > > > > > > > > -- > > > > > > 这是一个有钱人的世界,与我的世界截然不同! > > > > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > > > > 饭否? http://fanfou.com/zongzi > > > > > > > > > > > > > > > > > > > > > > > > > > > -------------------------------------------------------------------------------- > > > > > > > > > > > > > > > > _______________________________________________ > > > > > > China-pm mailing list > > > > > > China-pm at pm.org > > > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > _______________________________________________ > > > > > China-pm mailing list > > > > > China-pm at pm.org > > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > > > > > > > > > > > -- > > > > --------------------------- > > > > Achilles Xu > > > > http://www.lostcode.org > > > > _______________________________________________ > > > > China-pm mailing list > > > > China-pm at pm.org > > > > http://mail.pm.org/mailman/listinfo/china-pm > > > > > > > > > > > > > > > > -- > > > 这是一个有钱人的世界,与我的世界截然不同! > > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > > 饭否?http://fanfou.com/zongzi > > > > > > > > > > > -- > > 这是一个有钱人的世界,与我的世界截然不同! > > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > > 饭否?http://fanfou.com/zongzi > > > > > > -------------------------------------------------------------------------------- > > > > _______________________________________________ > > China-pm mailing list > > China-pm at pm.org > > http://mail.pm.org/mailman/listinfo/china-pm > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm -- --------------------------- Achilles Xu http://www.lostcode.org -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/e33dac2b/attachment-0001.html From havel.zhang at gmail.com Fri Oct 26 06:17:46 2007 From: havel.zhang at gmail.com (Havel Zhang) Date: Fri, 26 Oct 2007 06:17:46 -0700 Subject: [PerlChina] =?gb2312?b?x+u9zNK7uPbOyszio6y9xbG+seCzzMqxuvK1xLTz?= =?gb2312?b?yv2+3cG/sci9z87KzOI=?= In-Reply-To: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> References: <1700c2710710252135y7866184ev29e20862ab34d2b2@mail.gmail.com> Message-ID: 能不能先grep 先筛选出有特定关键字的记录,放到一个文件后,然后用hash和正则表达式来匹配,找出重复的记录? Havel Zhang On 10/25/07, zongzi wrote: > > 我现在需要从十几万条数据(文本文件中的行)中,提取有特定关键字的记录,然后刷选出这些记录的特定位置重复的记录。 > > 这是一个桌面使用的脚本,系统维护工作中使用的。 > > 我本来是想直接放进数组,然后一个一个比较的。 > > 但是突然觉得那样就算不会超出数组大小的上限,也是非常没有效率的。 > > 所以想请教一下各位,有啥好的处理思路吗? > > > > -- > 这是一个有钱人的世界,与我的世界截然不同! > blog:http://www.dps4e.com/b/ & http://blog.dps4e.com > 饭否? http://fanfou.com/zongzi > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm > -- 真理使你自由 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/773709fa/attachment.html From tigerpeng2001 at yahoo.com Fri Oct 26 13:22:00 2007 From: tigerpeng2001 at yahoo.com (tiger peng) Date: Fri, 26 Oct 2007 13:22:00 -0700 (PDT) Subject: [PerlChina] China-pm Digest, Vol 30, Issue 3 Message-ID: <730912.83145.qm@web58711.mail.re1.yahoo.com> perl -ne 's/\s//g; s/@.*$//; $h{$_}++; END { print $_, "\n" for sort keys %h}' -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/80e76865/attachment.html From tigerpeng2001 at yahoo.com Fri Oct 26 14:02:00 2007 From: tigerpeng2001 at yahoo.com (tiger peng) Date: Fri, 26 Oct 2007 14:02:00 -0700 (PDT) Subject: [PerlChina] China-pm Digest, Vol 30, Issue 3 Message-ID: <266625.53096.qm@web58709.mail.re1.yahoo.com> I forgot the email account should be case insensitive. perl -ne 's/\s//g; s/@.*$//; $h{lc $_}++; END { print $_, "\n" for sort keys %h}' -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071026/3028cb4d/attachment.html From tigerpeng2001 at yahoo.com Sat Oct 27 07:45:35 2007 From: tigerpeng2001 at yahoo.com (tiger peng) Date: Sat, 27 Oct 2007 07:45:35 -0700 (PDT) Subject: [PerlChina] mailing list Message-ID: <482202.44112.qm@web58704.mail.re1.yahoo.com> I registered on china-pm. But it seems I cannot get mail sent to china-pm but china-pm-request. Could anyone help? -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071027/9c09f73d/attachment.html From yang.liana at gmail.com Sat Oct 27 08:23:15 2007 From: yang.liana at gmail.com (rorot) Date: Sat, 27 Oct 2007 23:23:15 +0800 Subject: [PerlChina] =?utf-8?b?5YGc5q2iL+W8gOWniyBQZXJsIOiEmuacrOWQjg==?= =?utf-8?b?5Y+w5qih5byP6L+Q6KGM?= In-Reply-To: References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> Message-ID: <472357E3.1000800@gmail.com> 陈学芹 wrote: > 在 07-10-25,Jesse Lee 写道: > >> 大家好, >> >> 想问个问题,昨天执行了一个脚本 daemon mode, 后来文件修改了一次,又执行了一次命令 >> # perl myfile.pl & ,发现运行了两个不同的内容。 >> 问一下怎么停止脚本的后台运行?这些运行在哪个文件里? >> >> 谢谢 >> > 如果你在同一个终端两次运行perl,后台方式,则可以用 > jobs -l > 命令找出后台的perl任务进程ID,再用kill -9 停止那个进程. > > 也可以用ps -aux | grep perl 查找出所有的perl进程,进而kill. > > > > > 传说中的女同学,PERL爱好者?哈哈。厉害。 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071027/aba9b384/attachment.html From cdrplum at gmail.com Sat Oct 27 12:17:57 2007 From: cdrplum at gmail.com (Jesse Lee) Date: Sun, 28 Oct 2007 03:17:57 +0800 Subject: [PerlChina] =?utf-8?b?5YGc5q2iL+W8gOWniyBQZXJsIOiEmuacrOWQjg==?= =?utf-8?b?5Y+w5qih5byP6L+Q6KGM?= In-Reply-To: <472357E3.1000800@gmail.com> References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> <472357E3.1000800@gmail.com> Message-ID: <657728f60710271217w2d224942g559e7aff4b2f7495@mail.gmail.com> 倒!是不是觉得 Jesse 的名字像女的?这在美国是一个标准的男用名字啊!老兄! 还有一个问题请教,有一个使用 Jabber 协议的聊天程序,通过客户端发送的信息存到 MySQL 数据库后中文文字变成了这样的: 信息太短 上面对应的是 "信息太短" 四个字,使用的都是 UTF8 编码,在网页上显示也是正常的,这样是否正常呢? 能否变成直接的中文?在 phpmyadmin 中看到中文? Thanx. On 10/27/07, rorot wrote: > > 陈学芹 wrote: > > 在 07-10-25,Jesse Lee 写道: > > 大家好, > > 想问个问题,昨天执行了一个脚本 daemon mode, 后来文件修改了一次,又执行了一次命令 > # perl myfile.pl & ,发现运行了两个不同的内容。 > 问一下怎么停止脚本的后台运行?这些运行在哪个文件里? > > 谢谢 > > 如果你在同一个终端两次运行perl,后台方式,则可以用 > jobs -l > 命令找出后台的perl任务进程ID,再用kill -9 停止那个进程. > > 也可以用ps -aux | grep perl 查找出所有的perl进程,进而kill. > > > > > 传说中的女同学,PERL爱好者?哈哈。厉害。 > > > > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm > -- http://www.digbuzz.com/ Web 2.0 用户挖新闻社区 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071028/bcf36452/attachment.html From pangj at earthlink.net Sat Oct 27 20:46:05 2007 From: pangj at earthlink.net (Jeff Pang) Date: Sun, 28 Oct 2007 11:46:05 +0800 Subject: [PerlChina] =?gb2312?b?zaPWuS+/qsq8IFBlcmwgvcWxvrrzzKjEo8q91Ms=?= =?gb2312?b?0NA=?= In-Reply-To: <657728f60710271217w2d224942g559e7aff4b2f7495@mail.gmail.com> References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> <472357E3.1000800@gmail.com> <657728f60710271217w2d224942g559e7aff4b2f7495@mail.gmail.com> Message-ID: On 10/28/07, Jesse Lee wrote: >有一个使用 Jabber 协议的聊天程序,通过客户端发送的信息存到 MySQL 数据库后中文文字变成了这样的: > 信息太短 > 上面对应的是 "信息太短" 四个字,使用的都是 UTF8 编码,在网页上显示也是正常的,这样是否正常呢? > 能否变成直接的中文?在 phpmyadmin 中看到中文? > Before inserting into database,you will add a set names statement: $sth = $dbh->prepare("set names 'utf8'"); $sth->execute(); Also you'd better translate the values from gb* to utf-8 before inserting. use Encode; $cn_characters = "信息太短"; $cn_characters = encode("utf8",decode("gb2312",$cn_characters)); then in sql, insert into table (cn_character_column) values ($cn_characters); From cdrplum at gmail.com Sun Oct 28 07:40:11 2007 From: cdrplum at gmail.com (Jesse Lee) Date: Sun, 28 Oct 2007 22:40:11 +0800 Subject: [PerlChina] =?utf-8?b?5YGc5q2iL+W8gOWniyBQZXJsIOiEmuacrOWQjg==?= =?utf-8?b?5Y+w5qih5byP6L+Q6KGM?= In-Reply-To: References: <657728f60710250726xe38bf2fmce230e8a9af3ccd3@mail.gmail.com> <657728f60710250728t4dc5342dmf5b24f87161373a2@mail.gmail.com> <472357E3.1000800@gmail.com> <657728f60710271217w2d224942g559e7aff4b2f7495@mail.gmail.com> Message-ID: <657728f60710280740i47966364tb1159d2a308fa955@mail.gmail.com> 多谢了,稍后改一下试试。 On 10/28/07, Jeff Pang wrote: > > On 10/28/07, Jesse Lee wrote: > >有一个使用 Jabber 协议的聊天程序,通过客户端发送的信息存到 MySQL 数据库后中文文字变成了这样的: > > 信息太短 > > 上面对应的是 "信息太短" 四个字,使用的都是 UTF8 编码,在网页上显示也是正常的,这样是否正常呢? > > 能否变成直接的中文?在 phpmyadmin 中看到中文? > > > > Before inserting into database,you will add a set names statement: > > $sth = $dbh->prepare("set names 'utf8'"); > $sth->execute(); > > Also you'd better translate the values from gb* to utf-8 before inserting. > > use Encode; > $cn_characters = "信息太短"; > $cn_characters = encode("utf8",decode("gb2312",$cn_characters)); > > then in sql, > > insert into table (cn_character_column) values ($cn_characters); > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm --
我挖网 www.digbuzz.com - Web 2.0 用户挖新闻社区 -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071028/82cac192/attachment.html From fayland at gmail.com Tue Oct 30 14:38:47 2007 From: fayland at gmail.com (Fayland Lam) Date: Tue, 30 Oct 2007 21:38:47 +0000 Subject: [PerlChina] mailing list In-Reply-To: <482202.44112.qm@web58704.mail.re1.yahoo.com> References: <482202.44112.qm@web58704.mail.re1.yahoo.com> Message-ID: <4727A467.5020700@gmail.com> tiger peng wrote: > I registered on china-pm. But it seems I cannot get mail sent to > china-pm but china-pm-request. Could anyone help? > truly speaking, it's fine I think. http://mail.pm.org/pipermail/china-pm/2007-October/thread.html > ------------------------------------------------------------------------ > > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm -- Fayland Lam // http://www.fayland.org/ From tigerpeng2001 at yahoo.com Wed Oct 31 06:36:31 2007 From: tigerpeng2001 at yahoo.com (tiger peng) Date: Wed, 31 Oct 2007 06:36:31 -0700 (PDT) Subject: [PerlChina] mailing list Message-ID: <359052.65956.qm@web58702.mail.re1.yahoo.com> I still cannot receive the email. I read your email by visiting October 2007 Archives by thread -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071031/406cce5b/attachment.html From cnhacktnt at gmail.com Wed Oct 31 22:56:59 2007 From: cnhacktnt at gmail.com (cnhack TNT) Date: Thu, 1 Nov 2007 13:56:59 +0800 Subject: [PerlChina] mailing list In-Reply-To: <359052.65956.qm@web58702.mail.re1.yahoo.com> References: <359052.65956.qm@web58702.mail.re1.yahoo.com> Message-ID: Hey, tiger peng We can receive your email, and it seems fine, what's your problem? can't receive our discussing mail or just can't receive the mail sent by yourself? On 10/31/07, tiger peng wrote: > > I still cannot receive the email. I read your email by visiting > October 2007 Archives by thread > > _______________________________________________ > China-pm mailing list > China-pm at pm.org > http://mail.pm.org/mailman/listinfo/china-pm > -------------- next part -------------- An HTML attachment was scrubbed... URL: http://mail.pm.org/pipermail/china-pm/attachments/20071101/57a08791/attachment.html