[PerlChina] 【请教】大量文档处理的时候,怎么保持中间状态,以便停止后能继续运行?

万朝伟 wanmyome at gmail.com
Tue Apr 17 00:29:16 PDT 2007


建议复制粘贴

在07-4-17,Achilles Xu <formalin14 at gmail.com> 写道:
>
> 使用现成的数据存储方案,比如bdb,mysql,或者自己定义文件存储。记录下每个url的状态(已抓/未抓)即可。
>
> 在07-4-10,zongzi <honghunter at gmail.com> 写道:
> >
> > 问一个可能很傻的问题:
> > 我尝试抓取网上的小说看。
> > 我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。
> > 脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。
> > TXT是我现在的各种数据的存储方式。
> > 批处理的作用就是调用wget,把URL作为参数去下载网页。
> >
> > 现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。
> > 该怎么处理这些正在下载、已经下载、等待下载什么的状态哪?
> > 或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理?
> >
> >
> > --
> > 这是一个有钱人的世界,与我的世界截然不同!
> > _______________________________________________
> > China-pm mailing list
> > China-pm at pm.org
> > http://mail.pm.org/mailman/listinfo/china-pm
>
>
>
>
> --
> ---------------------------
> Achilles Xu
> http://www.lazycode.org/achilles/
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20070417/7242a57f/attachment.html 


More information about the China-pm mailing list