[Rio-pm] xpath
Nuba Princigalli
nuba em fastmail.fm
Quarta Abril 3 10:48:53 PDT 2013
Concordo com o Tiago. Regras como "SEMPRE" e "NUNCA" são como rodinhas
de bicicleta, com experiência e maturidade viram em geral "em situações
típicas, PREFIRA" ou "em situações típicas, EVITE" e cabe ao
profissional avaliar, e cada caso é um caso.
curl -s [1]http://gooogle.com | grep -i '<TITLE>301 Moved</TITLE>' >
/dev/null && echo "yeah title says it moved" || echo "not the title
you're looking for"
Se eu tiver um oneliner, ou script descartável, tipo isso aí em cima, e
alguém me sugerir um parser, eu vou rir e é muito! rsrs
Se servir de consolo, pensem (puristas e teóricos de plantão) que
existem situações em que é melhor resolver um problema mal e porcamente
hoje, e sobreviver, do que uma solução bonita e elegante daqui a um
mês, e não ter um segundo mês de sobrevida para usar ou levar o projeto
adiante.
Veja também: technical debt.
On Wed, Apr 3, 2013, at 02:00 PM, Tiago Peczenyj wrote:
Eu posso e faço :P
2013/4/3 Andre Carneiro <[2]andregarciacarneiro em gmail.com>
Não, não pode!
Evite esse tipo de atitude o máximo possível!
Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
porque eu 'posso' que signfica que eu farei.
Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
suficiente para não ser parseado, é muito provável que não valha a pena
parsea-lo!
Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
WWW::Mechanize dá pra pegar!
Em 99,99999% dos casos é desnecessário...
Cheers!
2013/4/3 Tiago Peczenyj <[3]tiago.peczenyj em gmail.com>
IMHO vc pode sim usar regex para parserar html SE
1) a estrutura do html for porca (tipo cheio de tag q não fecha ou
coisas q não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como
"APROVADO" ou "ERRO)
3) vc está desesperado
Mas para cada ponto que vc pode usar, existem muitos argumentos contra.
vc até pode usar como um complemento ao seu parser mas se basear SÓ
nisso, como criterio geral, é furada.
2013/4/3 Marcio Ferreira <[4]marciodesouzaferreira em gmail.com>
Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
podem ser tocados:
o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
assim vc de fato se concentra no seu problema e esquece o resto.
o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
no seu DOM, isso é legal!
NUNCA USE REGEX PRA PARSER DE HTML
[5]http://stackoverflow.com/questions/1732348/regex-match-open-tags-exc
ept-xhtml-self-contained-tags?page=1&tab=votes#tab-top
Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
seus "findnodes" e compor seu objeto na mao, frente a soluções como
Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/
**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
mesmo =P
[]s,
Marcio Ferreira
skype: marcio.ferreir4
[6](21) 8365-7768
2013/4/3 Nuba Princigalli <[7]nuba em fastmail.fm>
On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
Também há o HTML::TreeBuilder (mas um pouco mais complicado de
"gerenciar" o workflow).
Já usei e recomendo
o [8]https://metacpan.org/module/HTML::TreeBuilder::XPath
--
Nuba R. Princigalli [9]nuba em pauleira.com [10]http://pauleira.com
@nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson
_______________________________________________
Rio-pm mailing list
[11]Rio-pm em pm.org
[12]http://mail.pm.org/mailman/listinfo/rio-pm
_______________________________________________
Rio-pm mailing list
[13]Rio-pm em pm.org
[14]http://mail.pm.org/mailman/listinfo/rio-pm
--
Tiago B. Peczenyj
Linux User #405772
[15]http://about.me/peczenyj
_______________________________________________
Rio-pm mailing list
[16]Rio-pm em pm.org
[17]http://mail.pm.org/mailman/listinfo/rio-pm
--
André Garcia Carneiro
Software Engineer
[18](11)982907780
_______________________________________________
Rio-pm mailing list
[19]Rio-pm em pm.org
[20]http://mail.pm.org/mailman/listinfo/rio-pm
--
Tiago B. Peczenyj
Linux User #405772
[21]http://about.me/peczenyj
_______________________________________________
Rio-pm mailing list
[22]Rio-pm em pm.org
[23]http://mail.pm.org/mailman/listinfo/rio-pm
--
Nuba R. Princigalli nuba em pauleira.com http://pauleira.com @nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson
References
1. http://gooogle.com/
2. mailto:andregarciacarneiro em gmail.com
3. mailto:tiago.peczenyj em gmail.com
4. mailto:marciodesouzaferreira em gmail.com
5. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
6. tel:%2821%29%208365-7768
7. mailto:nuba em fastmail.fm
8. https://metacpan.org/module/HTML::TreeBuilder::XPath
9. mailto:nuba em pauleira.com
10. http://pauleira.com/
11. mailto:Rio-pm em pm.org
12. http://mail.pm.org/mailman/listinfo/rio-pm
13. mailto:Rio-pm em pm.org
14. http://mail.pm.org/mailman/listinfo/rio-pm
15. http://about.me/peczenyj
16. mailto:Rio-pm em pm.org
17. http://mail.pm.org/mailman/listinfo/rio-pm
18. tel:%2811%29982907780
19. mailto:Rio-pm em pm.org
20. http://mail.pm.org/mailman/listinfo/rio-pm
21. http://about.me/peczenyj
22. mailto:Rio-pm em pm.org
23. http://mail.pm.org/mailman/listinfo/rio-pm
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/09884316/attachment-0001.html>
Mais detalhes sobre a lista de discussão Rio-pm