[PerlChina] 【请教】大量文档处理的时候，怎么保持中间状态，以便停止后能继续运行？

Tue Apr 17 00:16:48 PDT 2007

使用现成的数据存储方案，比如bdb，mysql，或者自己定义文件存储。记录下每个url的状态（已抓/未抓）即可。

在07-4-10，zongzi <honghunter at gmail.com> 写道：
>
> 问一个可能很傻的问题：
> 我尝试抓取网上的小说看。
> 我还不会弄数据库什么的，我的处理过程就是：脚本+txt+批处理+wget。
> 脚本作些简单的数据提取，例如从一个用wget抓到的html网页中，取出URL，然后生成批处理文件。
> TXT是我现在的各种数据的存储方式。
> 批处理的作用就是调用wget，把URL作为参数去下载网页。
>
> 现在的问题是，我希望能处理一部分之后，断了，还能继续接着处理。
> 该怎么处理这些正在下载、已经下载、等待下载什么的状态哪？
> 或者说，怎么用文件保存一个列表中处理了一半的位置，下次能从这里开始继续处理？
>
>
> --
> 这是一个有钱人的世界，与我的世界截然不同！
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm


-- 
---------------------------
Achilles Xu
http://www.lazycode.org/achilles/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20070417/e0f2c797/attachment.html