[Rio-pm] xpath

Matheus Lucas malsi2 em yahoo.com.br
Quarta Abril 3 10:54:03 PDT 2013


Ok, realmente eu estou usando o WWW::Mechanize. :-) 
E o html não esta tao porquinho, ja vi piores kkkkk mais é realmente muito complicado mesmo, cheguei a esta conclusão.
No caso é um <p> que esta no meio do codigo e o mesmo esta gigante, entao pensei que regex não iria facilitar, teria que ter algo mais inteligente e principalmente navegavel. :-) 
Me lebrei dos seletores do Jquery com esse mojo::dom . :-)
Valeu pela dica André, ogribado !





----------------Matheus Lucas
Tecnologia em Sistemas para InternetViçosa-MG
"Seja livre, use Linux !"

--- Em qua, 3/4/13, Andre Carneiro <andregarciacarneiro em gmail.com> escreveu:

De: Andre Carneiro <andregarciacarneiro em gmail.com>
Assunto: Re: [Rio-pm] xpath
Para: "Perl Mongers Rio de Janeiro" <rio-pm em pm.org>
Data: Quarta-feira, 3 de Abril de 2013, 14:00

Não, não pode!
Evite esse tipo de atitude o máximo possível!
Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque eu 'posso' que signfica que eu farei.

Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o suficiente para não ser parseado, é muito provável que não valha a pena parsea-lo!
Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra pegar!

Em 99,99999% dos casos é desnecessário...

Cheers!


2013/4/3 Tiago Peczenyj <tiago.peczenyj em gmail.com>

IMHO vc pode sim usar regex para parserar html SE
1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" ou "ERRO)

3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso, como criterio geral, é furada.




2013/4/3 Marcio Ferreira <marciodesouzaferreira em gmail.com>



Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser tocados:



o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc de fato se concentra no seu problema e esquece o resto.


o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu DOM, isso é legal!
NUNCA USE REGEX PRA PARSER DE HTMLhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top







Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/






**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P

[]s,

Marcio Ferreira

skype: marcio.ferreir4

(21) 8365-7768



2013/4/3 Nuba Princigalli <nuba em fastmail.fm>











On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o workflow).


 
Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath

 
--

Nuba R. Princigalli  nuba em pauleira.com  http://pauleira.com  @nprincigalli

Discipline is not an end in itself, just a means to an end. - King Crimson

 




_______________________________________________

Rio-pm mailing list

Rio-pm em pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



_______________________________________________

Rio-pm mailing list

Rio-pm em pm.org

http://mail.pm.org/mailman/listinfo/rio-pm




-- 
Tiago B. Peczenyj
Linux User #405772



http://about.me/peczenyj


_______________________________________________

Rio-pm mailing list

Rio-pm em pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



-- 
André Garcia Carneiro
Software Engineer

(11)982907780


-----Anexo incorporado-----

_______________________________________________
Rio-pm mailing list
Rio-pm em pm.org
http://mail.pm.org/mailman/listinfo/rio-pm
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/9edaa292/attachment.html>


Mais detalhes sobre a lista de discussão Rio-pm