[PerlChina] 【请教】大量文档处理的时候,怎么保持中间状态,以便停止后能继续运行?

Achilles Xu formalin14 at gmail.com
Tue Apr 17 00:16:48 PDT 2007


使用现成的数据存储方案,比如bdb,mysql,或者自己定义文件存储。记录下每个url的状态(已抓/未抓)即可。

在07-4-10,zongzi <honghunter at gmail.com> 写道:
>
> 问一个可能很傻的问题:
> 我尝试抓取网上的小说看。
> 我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。
> 脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。
> TXT是我现在的各种数据的存储方式。
> 批处理的作用就是调用wget,把URL作为参数去下载网页。
>
> 现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。
> 该怎么处理这些正在下载、已经下载、等待下载什么的状态哪?
> 或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理?
>
>
> --
> 这是一个有钱人的世界,与我的世界截然不同!
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm




-- 
---------------------------
Achilles Xu
http://www.lazycode.org/achilles/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20070417/e0f2c797/attachment.html 


More information about the China-pm mailing list