你有兴趣就和人家联系一下吧。<br>你就别管什么知识不知识了,也别管什么正事不正事了。<br>闷头赚点钱不就行了?<br>人家要得很急。我实在是抽不出时间。<br><br>另外弱弱的问一句:什么是NLP? 缩写搞不清是什么东西。LWP?<br>*^-^*<br><br><br><div class="gmail_quote">2008/11/5 Wan Chaowei <span dir="ltr">&lt;<a href="mailto:wanmyome@gmail.com">wanmyome@gmail.com</a>&gt;</span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">这个系统涉及很多知识,其中涉及NLP部分在下倒是很有兴趣。<br><br>不过可惜,怎么不干正事呢<br><br><div class="gmail_quote">2008/11/4 黄叶 <span dir="ltr">&lt;<a href="mailto:hylinux@gmail.com" target="_blank">hylinux@gmail.com</a>&gt;</span><br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div><div></div><div class="Wj3C7c">
一个新闻抓取系统,下面是人家写的要求。<br>偶比较忙,也没什么兴趣,有兴趣的人和他们联系一下:<br>联系人邮箱和MSN:<br>邮箱:<a href="mailto:richardxu7@gmail.com" target="_blank">richardxu7@gmail.com</a><br>MSN: <a href="mailto:richardxu7@hotmail.com" target="_blank">richardxu7@hotmail.com</a><br>

<br><br>系统配置:
<br>&nbsp;
<br>Linux
<br>Perl
<br>Mysql
<br>Html
<br>&nbsp;
<br>目的:
<br>&nbsp;
<br>一套能够自动抓取新闻内容,并产生网页的系统。
<br>新闻来源 - google news, yahoo news, <a href="http://news.sina.com.cn" target="_blank">news.sina.com.cn</a>,或者是一个可以RSS输出的新闻源 (是双语系统,但英文为主)
<br>&nbsp;
<br>功能要求:
<br>&nbsp;
<br>Perl 语言后台运行 + Cron (每天运行, 时间频率可以调节)
<br>新闻内容读取后,存入Mysql数据库
<br>能够自动过滤重复的新闻,做简单的内容重复分析
<br>Perl 语言从数据库中读取新闻,根据模板重新生成优化的 HTML 网页
<br>&nbsp;&nbsp;&nbsp; 模板里面包括可调用的不同的Google广告代码,或其它个性化的广告代码(java script, 或简单html 代码)
<br>&nbsp;&nbsp;&nbsp; 模板以后可以不断调节
<br>&nbsp;&nbsp;&nbsp; 模板也可能根据一个已经成型的网站设计
<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 内容重写 =》 次序,避免被S认为重复
<br>&nbsp;
<br>从新生成的HTML过程每天一次(会让搜索引擎机器人认为文档比较新鲜)
<br>Sitemap 然后自动提交(这个不用设计,已经有现成的)
<br>SEO优化
<br>&nbsp;&nbsp;&nbsp; 每个页面的keywords, description, title 都会根据新闻内容做简单的智能优化。
<br>&nbsp; 对新闻标题进行智能改变 - 减少版权纠纷。
<br>&nbsp; 并能够自动产生一定数量的Tag标签
<br>整个新闻系统形成一个简单的导航内容,方便读者寻找以往内容。&nbsp;
<br>并配以Google 站内搜索的内容(考虑结合模板设计,也是可以调节的)
<br>考虑配置Addthis的推广代码
<br>可以从后台进行新闻的简单编辑和增减 - 版权的考虑
<br>在页面底部能够随机产生5-6条相关新闻。
<br>在底部会形成Google分析代码,可以加在模板内。
<br>页面的编码可以调配,中文或英文
<br>底部有Webmaster的联系方式。
<br>整个新闻体系可以进行RSS输出,或者可以写入一个Wordpress系统。 利用Blog来进行输出。
<br>&nbsp;&nbsp;&nbsp; 能够ping其它服务器,自动形成Tag?
<br>一个可以在其它网站上面显示的调用的widget(JS),显示几条最新新闻?
<br>&nbsp;&nbsp;
<br>&nbsp;
<br>新闻源和抓取数量可以调节
<br>新闻关键词可以调节
<br>模板使用可以调节
<br>模板文件可以手工编辑
<br>服务器上的路径可以调节或改变
<br>新闻日期范围可以定制
<br>分类可以明确
<br>支持一个或多个关键词
<br>可以确定新闻抓取数量上限
<br>&nbsp;
<br>变量通过一个设置文档进行调解<br><br><br><br><br><br><br><br>
<br></div></div>_______________________________________________<br>
China-pm mailing list<br>
<a href="mailto:China-pm@pm.org" target="_blank">China-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">http://mail.pm.org/mailman/listinfo/china-pm</a><br></blockquote></div><font color="#888888"><br><br clear="all"><br>-- <br>gegewan的博客技术含量高,写程序的兄弟不要错过<br>
<a href="http://www.opendict.net" target="_blank">http://www.opendict.net</a><br>

</font><br>_______________________________________________<br>
China-pm mailing list<br>
<a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">http://mail.pm.org/mailman/listinfo/china-pm</a><br></blockquote></div><br>