哈,以前作反垃圾邮件的时候搞过不少此类的东东~~~<br><br>checkout了bamboo正在看...<br><br><div class="gmail_quote">2008/11/12 agentzh <span dir="ltr">&lt;<a href="mailto:agentzh@gmail.com">agentzh@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
2008/11/12 Silent <span dir="ltr">&lt;<a href="mailto:silent2600@gmail.com" target="_blank">silent2600@gmail.com</a>&gt;</span><br><div class="gmail_quote"><div class="Ih2E3d"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

rt,<br>
<br>
用来提取文章的关键字, cpan上lingua::XXX 有几个,还没试呢, 不过貌似那些东西依赖都很大的<br>
</blockquote></div><div><br>我们 4E team 在过去的几个月中开发了一个 C 的分词库 Bamboo:<br><br><a href="http://code.google.com/p/nlpbamboo/" target="_blank">http://code.google.com/p/nlpbamboo/</a><br><br>主要的开发者 jianingy 是我的同事,呵呵,平时就坐我身后。我正在考虑把它做成 XS 扩展放 CPAN 上去,我也刚刚跟他交换了一下意见。现有 CPAN 上的我试了几个感觉都巨慢无比,而且效果不好,呵呵。<br>

<br>我自己的 Blog 的中文全文搜索就是利用 Bamboo 的 PostgreSQL 扩展进行分词,最后通过 OpenResty 暴露出服务。有兴趣可以玩一玩,比如下面这个例子:<br><br>&nbsp;&nbsp;&nbsp; <a href="http://blog.agentzh.org/#search/1/%E7%BD%91%E7%AB%99" target="_blank">http://blog.agentzh.org/#search/1/%E7%BD%91%E7%AB%99</a><br>

&nbsp;</div></div>有兴趣提供帮助的朋友,我们会非常欢迎!<br><font color="#888888"><br>-agentzh<br>
</font><br>_______________________________________________<br>
China-pm mailing list<br>
<a href="mailto:China-pm@pm.org">China-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/china-pm" target="_blank">http://mail.pm.org/mailman/listinfo/china-pm</a><br></blockquote></div><br><br clear="all"><br>-- <br>夏清然<br>Xia Qingran<br><a href="mailto:qingran.xia@gmail.com">qingran.xia@gmail.com</a><br>
Mike Myers &nbsp;- &quot;My theory is that all of Scottish cuisine is based on a dare.&quot;