wget -c<br><br><div><span class="gmail_quote">在07-4-17,<b class="gmail_sendername">Achilles Xu</b> &lt;<a href="mailto:formalin14@gmail.com">formalin14@gmail.com</a>&gt; 写道:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
使用现成的数据存储方案,比如bdb,mysql,或者自己定义文件存储。记录下每个url的状态(已抓/未抓)即可。<br><br><div><span class="gmail_quote">在07-4-10,<b class="gmail_sendername">zongzi</b> &lt;<a href="mailto:honghunter@gmail.com" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
honghunter@gmail.com</a>&gt; 写道:</span>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">问一个可能很傻的问题:<br>我尝试抓取网上的小说看。<br>我还不会弄数据库什么的,我的处理过程就是:脚本+txt+批处理+wget。<br>脚本作些简单的数据提取,例如从一个用wget抓到的html网页中,取出URL,然后生成批处理文件。
<br>TXT是我现在的各种数据的存储方式。<br>批处理的作用就是调用wget,把URL作为参数去下载网页。<br><br>现在的问题是,我希望能处理一部分之后,断了,还能继续接着处理。<br>该怎么处理这些正在下载、已经下载、等待下载什么的状态哪?<br>或者说,怎么用文件保存一个列表中处理了一半的位置,下次能从这里开始继续处理?<br><br><br>--<br>这是一个有钱人的世界,与我的世界截然不同!<br>_______________________________________________
<br>China-pm mailing list<br><a href="mailto:China-pm@pm.org" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">China-pm@pm.org</a><br><a href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">
http://mail.pm.org/mailman/listinfo/china-pm</a></blockquote></div><span class="sg"><br><br clear="all">
<br>-- <br>---------------------------<br>Achilles Xu<br><a href="http://www.lazycode.org/achilles/" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">http://www.lazycode.org/achilles/</a>
</span><br>_______________________________________________<br>China-pm mailing list<br><a onclick="return top.js.OpenExtLink(window,event,this)" href="mailto:China-pm@pm.org">China-pm@pm.org</a><br><a onclick="return top.js.OpenExtLink(window,event,this)" href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">
http://mail.pm.org/mailman/listinfo/china-pm</a><br></blockquote></div><br><br clear="all"><br>-- <br>cheers,<br>-dongxu<br>__END__<br><a href="http://search.cpan.org/~dongxu">http://search.cpan.org/~dongxu</a>