[PerlChina] 【请教】大量文档处理的时候，怎么保持中间状态，以便停止后能继续运行？

Tue Apr 17 00:29:16 PDT 2007

建议复制粘贴

在07-4-17，Achilles Xu <formalin14 at gmail.com> 写道：
>
> 使用现成的数据存储方案，比如bdb，mysql，或者自己定义文件存储。记录下每个url的状态（已抓/未抓）即可。
>
> 在07-4-10，zongzi <honghunter at gmail.com> 写道：
> >
> > 问一个可能很傻的问题：
> > 我尝试抓取网上的小说看。
> > 我还不会弄数据库什么的，我的处理过程就是：脚本+txt+批处理+wget。
> > 脚本作些简单的数据提取，例如从一个用wget抓到的html网页中，取出URL，然后生成批处理文件。
> > TXT是我现在的各种数据的存储方式。
> > 批处理的作用就是调用wget，把URL作为参数去下载网页。
> >
> > 现在的问题是，我希望能处理一部分之后，断了，还能继续接着处理。
> > 该怎么处理这些正在下载、已经下载、等待下载什么的状态哪？
> > 或者说，怎么用文件保存一个列表中处理了一半的位置，下次能从这里开始继续处理？
> >
> >
> > --
> > 这是一个有钱人的世界，与我的世界截然不同！
> > _______________________________________________
> > China-pm mailing list
> > China-pm at pm.org
> > http://mail.pm.org/mailman/listinfo/china-pm
>
>
>
>
> --
> ---------------------------
> Achilles Xu
> http://www.lazycode.org/achilles/
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20070417/7242a57f/attachment.html