[Cascavel-pm] Parser em HTML mal formado

Sexta Agosto 5 08:14:30 PDT 2005

Olá Monges,

Estou com problemas em extrair alguns dados de um documento HTML
utilizando HTML::TreeBuilder. O documento HTML possui algumas tags
sobrando*:

<tr>
  <td>Descricao</td>
  <td align="left">Outras</td></td> <!-- sobrando -->
  <td align="left">Valor</td></td> <!-- sobrando -->
</tr>

* Chamo de tags sobrando as tags que nao tem um tag de abertura equivalente.

Pelo que eu percebi ao fazer o parsing 'tudo' que vier após a tag
sobrando é descartado.
Na verdade tudo até o fim do nó que estou processando no momento, o
</tr> por exemplo.

<tr>
  <td>Descricao</td>
  <td align="left">Outras</td>
</tr>

A informacao que estava dentro do ultimo <td> se perdeu.

Procurei no TreeBuilder algum parametro que filtre isso antes do
parser, nao encontrei.
Também pensei que talvez eu pudesse filtar o HTML antes do parser, mas
nao sei que módulo utilizar para isso.

Algum Monge poderia me dar uma dica?

Obrigado,
Joenio Marques