<br><br><div class="gmail_quote">24 декабря 2009 г. 10:55 пользователь Dmitry E. Oboukhov <span dir="ltr">&lt;<a href="mailto:unera@debian.org">unera@debian.org</a>&gt;</span> написал:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
A&gt; Есть SAX-подобные парсеры типа HTML::TokeParser.<br>
<br>
ага, попарсь ими например какой-нибудь mailru (где постоянно грешат<br>
незакрытыми тегами) что-то вроде<br>
<br>
&lt;tr&gt;<br>
    &lt;td&gt;jdjdkjk<br>
    &lt;td&gt;mlkllk<br>
&lt;tfoot&gt;<br>
    &lt;tr&gt;<br>
        &lt;td&gt;...&lt;/td&gt;<br>
    &lt;/tr&gt;<br>
&lt;/tfoot&gt;<br>
<br>
и получится что когда хотим что-то конкретное выколупывать из сайтов<br>
то парсеры &quot;ломаются&quot; в каком-то конкретном случае и начинают вместо<br>
тега выколупывать еще и соседние.<br></blockquote><div><br>Если я правильно ошибаюсь, HTML::TokeParser не ломается на невалидном HTML, он очень хорошо понимает, что &lt;td&gt; не может содержать другой &lt;td&gt; первым ребёнком.<br>
 </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
да, понятно что это невалидный html, но такого пол интернета :(<br>
<font color="#888888">--<br>
... mpd playing: Paul Mauriat - Anitra&#39;s Dance (E.Grieg)<br>
</font><div><div></div><div class="h5"><br>
. &#39;&#39;`.                               Dmitry E. Oboukhov<br>
: :’  :   email: <a href="mailto:unera@debian.org">unera@debian.org</a> jabber://<a href="mailto:UNera@uvw.ru">UNera@uvw.ru</a><br>
`. `~’              GPGKey: 1024D / F8E26537 2006-11-21<br>
  `- 1B23 D4F8 8EC0 D902 0555  E438 AB8C 00CF F8E2 6537<br>
</div></div><br>-----BEGIN PGP SIGNATURE-----<br>
Version: GnuPG v1.4.10 (GNU/Linux)<br>
<br>
iEYEAREDAAYFAkszOqAACgkQq4wAz/jiZTcPGwCgiFZTsYARj5QyAECfWXMjFGIo<br>
skAAnRsG/nBXuSiuuX4ec39kwww0YPcf<br>
=qoEv<br>
-----END PGP SIGNATURE-----<br>
<br>--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Andrei Protasovitski<br>&lt; andrei[dot]protasovitski[at]gmail[dot]com &gt;<br>Diemen, Netherlands<br>