[Rio-pm] xpath

Blabos de Blebe blabos em gmail.com
Quarta Abril 3 12:56:59 PDT 2013


http://xsh.sourceforge.net/

On Wednesday, April 3, 2013, Matheus Lucas wrote:

> Ok, realmente eu estou usando o WWW::Mechanize. :-)
> E o html não esta tao porquinho, ja vi piores kkkkk mais é realmente muito
> complicado mesmo, cheguei a esta conclusão.
> No caso é um <p> que esta no meio do codigo e o mesmo esta gigante, entao
> pensei que regex não iria facilitar, teria que ter algo mais inteligente e
> principalmente navegavel. :-)
> Me lebrei dos seletores do Jquery com esse mojo::dom . :-)
> Valeu pela dica André, ogribado !
>
>
> *
> *
> *
> *
> *
> *
> *----------------*
> Matheus Lucas
> Tecnologia em Sistemas para Internet
> Viçosa-MG
>
> *"Seja livre, use Linux !"*
>
>
> --- Em *qua, 3/4/13, Andre Carneiro <andregarciacarneiro em gmail.com<javascript:_e({}, 'cvml', 'andregarciacarneiro em gmail.com');>
> >* escreveu:
>
>
> De: Andre Carneiro <andregarciacarneiro em gmail.com <javascript:_e({},
> 'cvml', 'andregarciacarneiro em gmail.com');>>
> Assunto: Re: [Rio-pm] xpath
> Para: "Perl Mongers Rio de Janeiro" <rio-pm em pm.org <javascript:_e({},
> 'cvml', 'rio-pm em pm.org');>>
> Data: Quarta-feira, 3 de Abril de 2013, 14:00
>
> Não, não pode!
>
> Evite esse tipo de atitude o máximo possível!
>
> Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
> porque eu 'posso' que signfica que eu farei.
>
> Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
> suficiente para não ser parseado, é muito provável que não valha a pena
> parsea-lo!
>
> Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
> chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
> WWW::Mechanize dá pra pegar!
>
> Em 99,99999% dos casos é desnecessário...
>
>
> Cheers!
>
>
>
> 2013/4/3 Tiago Peczenyj <tiago.peczenyj em gmail.com<http://mc/compose?to=tiago.peczenyj@gmail.com>
> >
>
> IMHO vc pode sim usar regex para parserar html SE
>
> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
> q não façam muito sentido)
> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
> "APROVADO" ou "ERRO)
> 3) vc está desesperado
>
> Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
> até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
> como criterio geral, é furada.
>
>
> 2013/4/3 Marcio Ferreira <marciodesouzaferreira em gmail.com<http://mc/compose?to=marciodesouzaferreira@gmail.com>
> >
>
> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem
> ser tocados:
>
> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
> assim vc de fato se concentra no seu problema e esquece o resto.
> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no
> seu DOM, isso é legal!
>
> NUNCA USE REGEX PRA PARSER DE HTML
>
> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>
> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus
> "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper
> e Mojo::DOM, acho que ele ficou pra trás. =/
>
> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
> mesmo =P
>
>
> []s,
>
> Marcio Ferreira
> skype: marcio.ferreir4
> (21) 8365-7768
>
>
> 2013/4/3 Nuba Princigalli <nuba em fastmail.fm<http://mc/compose?to=nuba@fastmail.fm>
> >
>
>  **
> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>
> Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar"
> o workflow).
>
>
> Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath
>
> --
> Nuba R. Princigalli nuba em pauleira.com<http://mc/compose?to=nuba@pauleira.com>
> http://pauleira.com @nprincigalli
> Discipline is not an end in itself, just a means to an end. - King Crimson
>
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org <http://mc/compose?to=Rio-pm@pm.org>
> http://mail.pm.org/mailman/listinfo/rio-pm
>
>
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org <http://mc/compose?to=Rio-pm@pm.org>
> http://mail.pm.org/mailman/listinfo/rio-pm
>
> -----Anexo incorporado-----
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org <http://mc/compose?to=Rio-pm@pm.org>
> http://mail.pm.org/mailman/listinfo/rio-pm
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/00a4a27f/attachment.html>


Mais detalhes sobre a lista de discussão Rio-pm