<br><br><div class="gmail_quote">24 декабря 2009 г. 10:55 пользователь Dmitry E. Oboukhov <span dir="ltr"><<a href="mailto:unera@debian.org">unera@debian.org</a>></span> написал:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
A> Есть SAX-подобные парсеры типа HTML::TokeParser.<br>
<br>
ага, попарсь ими например какой-нибудь mailru (где постоянно грешат<br>
незакрытыми тегами) что-то вроде<br>
<br>
<tr><br>
<td>jdjdkjk<br>
<td>mlkllk<br>
<tfoot><br>
<tr><br>
<td>...</td><br>
</tr><br>
</tfoot><br>
<br>
и получится что когда хотим что-то конкретное выколупывать из сайтов<br>
то парсеры "ломаются" в каком-то конкретном случае и начинают вместо<br>
тега выколупывать еще и соседние.<br></blockquote><div><br>Если я правильно ошибаюсь, HTML::TokeParser не ломается на невалидном HTML, он очень хорошо понимает, что <td> не может содержать другой <td> первым ребёнком.<br>
</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
да, понятно что это невалидный html, но такого пол интернета :(<br>
<font color="#888888">--<br>
... mpd playing: Paul Mauriat - Anitra's Dance (E.Grieg)<br>
</font><div><div></div><div class="h5"><br>
. ''`. Dmitry E. Oboukhov<br>
: :’ : email: <a href="mailto:unera@debian.org">unera@debian.org</a> jabber://<a href="mailto:UNera@uvw.ru">UNera@uvw.ru</a><br>
`. `~’ GPGKey: 1024D / F8E26537 2006-11-21<br>
`- 1B23 D4F8 8EC0 D902 0555 E438 AB8C 00CF F8E2 6537<br>
</div></div><br>-----BEGIN PGP SIGNATURE-----<br>
Version: GnuPG v1.4.10 (GNU/Linux)<br>
<br>
iEYEAREDAAYFAkszOqAACgkQq4wAz/jiZTcPGwCgiFZTsYARj5QyAECfWXMjFGIo<br>
skAAnRsG/nBXuSiuuX4ec39kwww0YPcf<br>
=qoEv<br>
-----END PGP SIGNATURE-----<br>
<br>--<br>
Moscow.pm mailing list<br>
<a href="mailto:moscow-pm@pm.org">moscow-pm@pm.org</a> | <a href="http://moscow.pm.org" target="_blank">http://moscow.pm.org</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br>Andrei Protasovitski<br>< andrei[dot]protasovitski[at]gmail[dot]com ><br>Diemen, Netherlands<br>