[Cascavel-pm] Parser em HTML mal formado
Joenio Marques
joenio em gmail.com
Sexta Agosto 5 08:14:30 PDT 2005
Olá Monges,
Estou com problemas em extrair alguns dados de um documento HTML
utilizando HTML::TreeBuilder. O documento HTML possui algumas tags
sobrando*:
<tr>
<td>Descricao</td>
<td align="left">Outras</td></td> <!-- sobrando -->
<td align="left">Valor</td></td> <!-- sobrando -->
</tr>
* Chamo de tags sobrando as tags que nao tem um tag de abertura equivalente.
Pelo que eu percebi ao fazer o parsing 'tudo' que vier após a tag
sobrando é descartado.
Na verdade tudo até o fim do nó que estou processando no momento, o
</tr> por exemplo.
<tr>
<td>Descricao</td>
<td align="left">Outras</td>
</tr>
A informacao que estava dentro do ultimo <td> se perdeu.
Procurei no TreeBuilder algum parametro que filtre isso antes do
parser, nao encontrei.
Também pensei que talvez eu pudesse filtar o HTML antes do parser, mas
nao sei que módulo utilizar para isso.
Algum Monge poderia me dar uma dica?
Obrigado,
Joenio Marques
Mais detalhes sobre a lista de discussão Cascavel-pm