[PerlChina] perl解析HTML处理成DOM对象的处理
Qiang ( James ) Li
shijialee at gmail.com
Sat Nov 24 22:34:21 PST 2007
我对这个不在行,但看到过不少关于此类的信息,给你发过来做参考吧,只是不知
是否有用。 :)
HTML::DOM 底层用的是 HTML::TreeBuilder,或者你可以从 HTML::TreeBuilder
下手? HTML::TreeBuilder::XPath 和 HTML::DOMbo 看起来可能也会有用。
另外,我最近看到 Web::Scraper 的例子感觉有些相似,推荐你看看。
http://search.cpan.org/perldoc?Web::Scraper 作者的 use.perl 里也提到 DOM
,有很多例子和 tutorials 下载。http://use.perl.org/journal.pl?op=
display&uid=1653&start=10
Qiang
rorot wrote:
> 诸位好,
>
> 我在使用Perl的HTML::DOM模块处理HTML文档时,出现了一些问题。
>
> 目的是通过Perl解析HTML文档,生成一个DOM对象。但在这个过程中,适合
> HTML::DOM模块时,发现,此模块parse了html文档后,生成的DOM对象,丢弃了很
> 多原来HTML文档里的元素。甚至可以说,除了body能处理正确外,其他的Element
> 都无法正确处理。
>
> 我想:或者是我的script编写问题(参考了HTML::DOM的POD写的脚本), 或
> 者是
> 此模块(HTML::DOM)本身有问题,我看到它是alpha版本。
>
> 现在,我的问题是:如果需要在Perl下解析HTML文档生成DOM对象,使用
> HTML::DOM模块足够吗?或者还有其他更好的模块?Perl能类似于 Mozilla那样,
> 对于某些不符合w3c规范的HTML文档也能良好处理吗?
>
> PS: 经过CPAN搜索,我看到了Mozilla::DOM模块,尝试编译时,发生错
> 误,需
> 要XPCOM支持,对XPCOM,几乎无印象,希望有懂得前辈指点一二。
>
> rorot
>
>
> ------------------------------------------------------------------------
>
> _______________________________________________
> China-pm mailing list
> China-pm at pm.org
> http://mail.pm.org/mailman/listinfo/china-pm
More information about the China-pm
mailing list