[Rio-pm] xpath

Nuba Princigalli nuba em fastmail.fm
Quarta Abril 3 10:48:53 PDT 2013


Concordo com o Tiago. Regras como "SEMPRE" e "NUNCA" são como rodinhas
de bicicleta, com experiência e maturidade viram em geral "em situações
típicas, PREFIRA" ou "em situações típicas, EVITE" e cabe ao
profissional avaliar, e cada caso é um caso.



curl -s [1]http://gooogle.com | grep -i '<TITLE>301 Moved</TITLE>' >
/dev/null && echo "yeah title says it moved" || echo "not the title
you're looking for"



Se eu tiver um oneliner, ou script descartável, tipo isso aí em cima, e
alguém me sugerir um parser, eu vou rir e é muito! rsrs



Se servir de consolo, pensem (puristas e teóricos de plantão) que
existem situações em que é melhor resolver um problema mal e porcamente
hoje, e sobreviver, do que uma solução bonita e elegante daqui a um
mês, e não ter um segundo mês de sobrevida para usar ou levar o projeto
adiante.



Veja também: technical debt.





On Wed, Apr 3, 2013, at 02:00 PM, Tiago Peczenyj wrote:

Eu posso e faço :P



2013/4/3 Andre Carneiro <[2]andregarciacarneiro em gmail.com>

Não, não pode!



Evite esse tipo de atitude o máximo possível!



Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
porque eu 'posso' que signfica que eu farei.


Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
suficiente para não ser parseado, é muito provável que não valha a pena
parsea-lo!

Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
WWW::Mechanize dá pra pegar!

Em 99,99999% dos casos é desnecessário...


Cheers!



2013/4/3 Tiago Peczenyj <[3]tiago.peczenyj em gmail.com>

IMHO vc pode sim usar regex para parserar html SE

1) a estrutura do html for porca (tipo cheio de tag q não fecha ou
coisas q não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como
"APROVADO" ou "ERRO)
3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra.
vc até pode usar como um complemento ao seu parser mas se basear SÓ
nisso, como criterio geral, é furada.


2013/4/3 Marcio Ferreira <[4]marciodesouzaferreira em gmail.com>

Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
podem ser tocados:

o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
assim vc de fato se concentra no seu problema e esquece o resto.
o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
no seu DOM, isso é legal!

NUNCA USE REGEX PRA PARSER DE HTML
[5]http://stackoverflow.com/questions/1732348/regex-match-open-tags-exc
ept-xhtml-self-contained-tags?page=1&tab=votes#tab-top

Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
seus "findnodes" e compor seu objeto na mao, frente a soluções como
Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/

**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
mesmo =P


[]s,

Marcio Ferreira

skype: marcio.ferreir4
[6](21) 8365-7768


2013/4/3 Nuba Princigalli <[7]nuba em fastmail.fm>

On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de
"gerenciar" o workflow).


Já usei e recomendo
o [8]https://metacpan.org/module/HTML::TreeBuilder::XPath

--
Nuba R. Princigalli [9]nuba em pauleira.com [10]http://pauleira.com
@nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson


_______________________________________________
Rio-pm mailing list
[11]Rio-pm em pm.org
[12]http://mail.pm.org/mailman/listinfo/rio-pm




_______________________________________________

Rio-pm mailing list

[13]Rio-pm em pm.org

[14]http://mail.pm.org/mailman/listinfo/rio-pm




--
Tiago B. Peczenyj
Linux User #405772
[15]http://about.me/peczenyj



_______________________________________________

Rio-pm mailing list

[16]Rio-pm em pm.org

[17]http://mail.pm.org/mailman/listinfo/rio-pm




--
André Garcia Carneiro
Software Engineer
[18](11)982907780



_______________________________________________

Rio-pm mailing list

[19]Rio-pm em pm.org

[20]http://mail.pm.org/mailman/listinfo/rio-pm




--
Tiago B. Peczenyj
Linux User #405772

[21]http://about.me/peczenyj

_______________________________________________

Rio-pm mailing list

[22]Rio-pm em pm.org

[23]http://mail.pm.org/mailman/listinfo/rio-pm



--
Nuba R. Princigalli nuba em pauleira.com http://pauleira.com @nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson

References

1. http://gooogle.com/
2. mailto:andregarciacarneiro em gmail.com
3. mailto:tiago.peczenyj em gmail.com
4. mailto:marciodesouzaferreira em gmail.com
5. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
6. tel:%2821%29%208365-7768
7. mailto:nuba em fastmail.fm
8. https://metacpan.org/module/HTML::TreeBuilder::XPath
9. mailto:nuba em pauleira.com
  10. http://pauleira.com/
  11. mailto:Rio-pm em pm.org
  12. http://mail.pm.org/mailman/listinfo/rio-pm
  13. mailto:Rio-pm em pm.org
  14. http://mail.pm.org/mailman/listinfo/rio-pm
  15. http://about.me/peczenyj
  16. mailto:Rio-pm em pm.org
  17. http://mail.pm.org/mailman/listinfo/rio-pm
  18. tel:%2811%29982907780
  19. mailto:Rio-pm em pm.org
  20. http://mail.pm.org/mailman/listinfo/rio-pm
  21. http://about.me/peczenyj
  22. mailto:Rio-pm em pm.org
  23. http://mail.pm.org/mailman/listinfo/rio-pm
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/09884316/attachment-0001.html>


Mais detalhes sobre a lista de discussão Rio-pm