建议复制粘贴<br><br>
<div><span class="gmail_quote">在07-4-17,<b class="gmail_sendername">Achilles Xu</b> &lt;<a href="mailto:formalin14@gmail.com">formalin14@gmail.com</a>&gt; 写道:</span>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">使用现成的数据存储方案,比如bdb,mysql,或者自己定义文件存储。记录下每个url的状态(已抓/未抓)即可。<br><br>
<div><span class="gmail_quote">在07-4-10,<b class="gmail_sendername">zongzi</b> &lt;<a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:honghunter@gmail.com" target="_blank">honghunter@gmail.com</a>&gt; 写道:
</span> 
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0pt 0pt 0pt 0.8ex; BORDER-LEFT: rgb(204,204,204) 1px solid">问一个可能很傻的问题:<br>我尝试抓取网上的小说看。<br>我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。<br>脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。 
<br>TXT是我现在的各种数据的存储方式。<br>批处理的作用就是调用wget,把URL作为参数去下载网页。<br><br>现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。<br>该怎么处理这些正在下载、已经下载、等待下载什么的状态哪?<br>或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理?<br><br><br>--<br>这是一个有钱人的世界,与我的世界截然不同!<br>_______________________________________________ 
<br>China-pm mailing list<br><a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:China-pm@pm.org" target="_blank">China-pm@pm.org</a><br><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">
http://mail.pm.org/mailman/listinfo/china-pm</a></blockquote></div><span class="sg"><br><br clear="all"><br>-- <br>---------------------------<br>Achilles Xu<br><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://www.lazycode.org/achilles/" target="_blank">
http://www.lazycode.org/achilles/</a> </span><br>_______________________________________________<br>China-pm mailing list<br><a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:China-pm@pm.org">China-pm@pm.org
</a><br><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">http://mail.pm.org/mailman/listinfo/china-pm</a><br></blockquote></div><br>