[PerlChina] perl解析HTML处理成DOM对象的处理

rorot yang.liana at gmail.com
Sat Nov 24 02:56:36 PST 2007


诸位好,

    我在使用Perl的HTML::DOM模块处理HTML文档时,出现了一些问题。

    目的是通过Perl解析HTML文档,生成一个DOM对象。但在这个过程中,适合
HTML::DOM模块时,发现,此模块parse了html文档后,生成的DOM对象,丢弃了很
多原来HTML文档里的元素。甚至可以说,除了body能处理正确外,其他的Element
都无法正确处理。

    我想:或者是我的script编写问题(参考了HTML::DOM的POD写的脚本), 或者是
此模块(HTML::DOM)本身有问题,我看到它是alpha版本。

    现在,我的问题是:如果需要在Perl下解析HTML文档生成DOM对象,使用
HTML::DOM模块足够吗?或者还有其他更好的模块?Perl能类似于 Mozilla那样,
对于某些不符合w3c规范的HTML文档也能良好处理吗?

    PS: 经过CPAN搜索,我看到了Mozilla::DOM模块,尝试编译时,发生错误,需
要XPCOM支持,对XPCOM,几乎无印象,希望有懂得前辈指点一二。

rorot
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://mail.pm.org/pipermail/china-pm/attachments/20071124/26eedece/attachment.html 


More information about the China-pm mailing list