[Rio-pm] xpath

Tiago Peczenyj tiago.peczenyj em gmail.com
Quarta Abril 3 09:48:06 PDT 2013


IMHO vc pode sim usar regex para parserar html SE

1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q
não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como
"APROVADO" ou "ERRO)
3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
como criterio geral, é furada.


2013/4/3 Marcio Ferreira <marciodesouzaferreira em gmail.com>

> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem
> ser tocados:
>
> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
> assim vc de fato se concentra no seu problema e esquece o resto.
> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no
> seu DOM, isso é legal!
>
> NUNCA USE REGEX PRA PARSER DE HTML
>
> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>
> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus
> "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper
> e Mojo::DOM, acho que ele ficou pra trás. =/
>
> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
> mesmo =P
>
>
> []s,
>
> Marcio Ferreira
> skype: marcio.ferreir4
> (21) 8365-7768
>
>
> 2013/4/3 Nuba Princigalli <nuba em fastmail.fm>
>
>>  **
>> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>>
>> Também há o HTML::TreeBuilder (mas um pouco mais complicado de
>> "gerenciar" o workflow).
>>
>>
>> Já usei e recomendo o
>> https://metacpan.org/module/HTML::TreeBuilder::XPath
>>
>> --
>> Nuba R. Princigalli nuba em pauleira.com http://pauleira.com @nprincigalli
>> Discipline is not an end in itself, just a means to an end. - King Crimson
>>
>>
>> _______________________________________________
>> Rio-pm mailing list
>> Rio-pm em pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
Tiago B. Peczenyj
Linux User #405772

http://about.me/peczenyj
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/fb6005f8/attachment.html>


Mais detalhes sobre a lista de discussão Rio-pm