[PerlChina] 中文分词用什么模块好些?

Silent silent2600 at gmail.com
Tue Nov 11 21:53:20 PST 2008


谢谢! 貌似很复杂的样子

2008/11/12 agentzh <agentzh at gmail.com>:
> 2008/11/12 Silent <silent2600 at gmail.com>
>>
>> rt,
>>
>> 用来提取文章的关键字, cpan上lingua::XXX 有几个,还没试呢, 不过貌似那些东西依赖都很大的
>
> 我们 4E team 在过去的几个月中开发了一个 C 的分词库 Bamboo:
>
> http://code.google.com/p/nlpbamboo/
>
> 主要的开发者 jianingy 是我的同事,呵呵,平时就坐我身后。我正在考虑把它做成 XS 扩展放 CPAN 上去,我也刚刚跟他交换了一下意见。现有
> CPAN 上的我试了几个感觉都巨慢无比,而且效果不好,呵呵。
>
> 我自己的 Blog 的中文全文搜索就是利用 Bamboo 的 PostgreSQL 扩展进行分词,最后通过 OpenResty
> 暴露出服务。有兴趣可以玩一玩,比如下面这个例子:
>
>     http://blog.agentzh.org/#search/1/%E7%BD%91%E7%AB%99
>
> 有兴趣提供帮助的朋友,我们会非常欢迎!
>
> -agentzh
>
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm
>


More information about the China-pm mailing list