[Rio-pm] xpath

Andre Carneiro andregarciacarneiro em gmail.com
Quarta Abril 3 10:00:02 PDT 2013


Não, não pode!

Evite esse tipo de atitude o máximo possível!

Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
porque eu 'posso' que signfica que eu farei.

Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
suficiente para não ser parseado, é muito provável que não valha a pena
parsea-lo!

Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
WWW::Mechanize dá pra pegar!

Em 99,99999% dos casos é desnecessário...


Cheers!



2013/4/3 Tiago Peczenyj <tiago.peczenyj em gmail.com>

> IMHO vc pode sim usar regex para parserar html SE
>
> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
> q não façam muito sentido)
> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
> "APROVADO" ou "ERRO)
> 3) vc está desesperado
>
> Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
> até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
> como criterio geral, é furada.
>
>
> 2013/4/3 Marcio Ferreira <marciodesouzaferreira em gmail.com>
>
>> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
>> podem ser tocados:
>>
>> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
>> assim vc de fato se concentra no seu problema e esquece o resto.
>> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
>> no seu DOM, isso é legal!
>>
>> NUNCA USE REGEX PRA PARSER DE HTML
>>
>> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>>
>> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
>> seus "findnodes" e compor seu objeto na mao, frente a soluções como
>> Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/
>>
>> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
>> mesmo =P
>>
>>
>> []s,
>>
>> Marcio Ferreira
>> skype: marcio.ferreir4
>> (21) 8365-7768
>>
>>
>> 2013/4/3 Nuba Princigalli <nuba em fastmail.fm>
>>
>>>  **
>>> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>>>
>>> Também há o HTML::TreeBuilder (mas um pouco mais complicado de
>>> "gerenciar" o workflow).
>>>
>>>
>>> Já usei e recomendo o
>>> https://metacpan.org/module/HTML::TreeBuilder::XPath
>>>
>>> --
>>> Nuba R. Princigalli nuba em pauleira.com http://pauleira.com @nprincigalli
>>> Discipline is not an end in itself, just a means to an end. - King
>>> Crimson
>>>
>>>
>>> _______________________________________________
>>> Rio-pm mailing list
>>> Rio-pm em pm.org
>>> http://mail.pm.org/mailman/listinfo/rio-pm
>>>
>>
>>
>> _______________________________________________
>> Rio-pm mailing list
>> Rio-pm em pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
>
> --
> Tiago B. Peczenyj
> Linux User #405772
>
> http://about.me/peczenyj
>
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
André Garcia Carneiro
Software Engineer
(11)982907780
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20130403/b2f210df/attachment-0001.html>


Mais detalhes sobre a lista de discussão Rio-pm