[Rio-pm] xpath

Tiago Peczenyj tiago.peczenyj em gmail.com
Quarta Abril 3 10:00:57 PDT 2013


Eu posso e faço :P


2013/4/3 Andre Carneiro <andregarciacarneiro em gmail.com>

> Não, não pode!
>
> Evite esse tipo de atitude o máximo possível!
>
> Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
> porque eu 'posso' que signfica que eu farei.
>
> Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
> suficiente para não ser parseado, é muito provável que não valha a pena
> parsea-lo!
>
> Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
> chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
> WWW::Mechanize dá pra pegar!
>
> Em 99,99999% dos casos é desnecessário...
>
>
> Cheers!
>
>
>
> 2013/4/3 Tiago Peczenyj <tiago.peczenyj em gmail.com>
>
>> IMHO vc pode sim usar regex para parserar html SE
>>
>> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
>> q não façam muito sentido)
>> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
>> "APROVADO" ou "ERRO)
>> 3) vc está desesperado
>>
>> Mas para cada ponto que vc pode usar, existem muitos argumentos contra.
>> vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
>> como criterio geral, é furada.
>>
>>
>> 2013/4/3 Marcio Ferreira <marciodesouzaferreira em gmail.com>
>>
>>> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
>>> podem ser tocados:
>>>
>>> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
>>> assim vc de fato se concentra no seu problema e esquece o resto.
>>> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
>>> no seu DOM, isso é legal!
>>>
>>> NUNCA USE REGEX PRA PARSER DE HTML
>>>
>>> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>>>
>>> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
>>> seus "findnodes" e compor seu objeto na mao, frente a soluções como
>>> Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/
>>>
>>> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
>>> mesmo =P
>>>
>>>
>>> []s,
>>>
>>> Marcio Ferreira
>>> skype: marcio.ferreir4
>>> (21) 8365-7768
>>>
>>>
>>> 2013/4/3 Nuba Princigalli <nuba em fastmail.fm>
>>>
>>>>  **
>>>> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>>>>
>>>> Também há o HTML::TreeBuilder (mas um pouco mais complicado de
>>>> "gerenciar" o workflow).
>>>>
>>>>
>>>> Já usei e recomendo o
>>>> https://metacpan.org/module/HTML::TreeBuilder::XPath
>>>>
>>>> --
>>>> Nuba R. Princigalli nuba em pauleira.com http://pauleira.com @nprincigalli
>>>> Discipline is not an end in itself, just a means to an end. - King
>>>> Crimson
>>>>
>>>>
>>>> _______________________________________________
>>>> Rio-pm mailing list
>>>> Rio-pm em pm.org
>>>> http://mail.pm.org/mailman/listinfo/rio-pm
>>>>
>>>
>>>
>>> _______________________________________________
>>> Rio-pm mailing list
>>> Rio-pm em pm.org
>>> http://mail.pm.org/mailman/listinfo/rio-pm
>>>
>>
>>
>>
>> --
>> Tiago B. Peczenyj
>> Linux User #405772
>>
>> http://about.me/peczenyj
>>
>> _______________________________________________
>> Rio-pm mailing list
>> Rio-pm em pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
>
> --
> André Garcia Carneiro
> Software Engineer
> (11)982907780
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
Tiago B. Peczenyj
Linux User #405772

http://about.me/peczenyj
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/eb0dd4fc/attachment.html>


Mais detalhes sobre a lista de discussão Rio-pm