<a href="http://xsh.sourceforge.net/">http://xsh.sourceforge.net/</a><br><br>On Wednesday, April 3, 2013, Matheus Lucas  wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font:inherit">Ok, realmente eu estou usando o WWW::Mechanize. :-) <br>E o html não esta tao porquinho, ja vi piores kkkkk mais é realmente muito complicado mesmo, cheguei a esta conclusão.<br>
No caso é um <p> que esta no meio do codigo e o mesmo esta gigante, entao pensei que regex não iria facilitar, teria que ter algo mais inteligente e principalmente navegavel. :-) <br>Me lebrei dos seletores do Jquery com esse mojo::dom . :-)<br>
Valeu pela dica André, ogribado !<br><br><br><div><div><div><div align="left"><div><div><div><div><span style="color:rgb(0,0,255);font-family:arial;font-size:13px"><strong><font face="arial, helvetica, sans-serif"><br></font></strong></span></div>
<div><span style="color:rgb(0,0,255);font-family:arial;font-size:13px"><strong><font face="arial, helvetica, sans-serif"><br></font></strong></span></div><div><span style="color:rgb(0,0,255);font-family:arial;font-size:13px"><strong><font face="arial, helvetica, sans-serif"><br>
</font></strong></span></div><div><font color="#0000ff" face="arial, helvetica, sans-serif"><b>----------------</b></font></div><font style="color:rgb(45,45,45);font-family:arial" face="arial, helvetica, sans-serif"><font style="font-size:13px">Matheus Lucas<br>
</font></font><span style="color:rgb(45,45,45);font-family:arial;font-size:small">Tecnologia em Sistemas para Internet</span></div><div><font style="color:rgb(45,45,45);font-family:arial" face="arial, helvetica, sans-serif">Viçosa-MG</font></div>
<div></div><div style="color:rgb(45,45,45)"><font><br></font></div></div></div><div style="color:rgb(45,45,45);font-family:arial"><font face="arial, helvetica, sans-serif"><i>"Seja livre, use Linux !"</i></font></div>
</div></div></div></div><br><br>--- Em <b>qua, 3/4/13, Andre Carneiro <i><<a href="javascript:_e({}, 'cvml', 'andregarciacarneiro@gmail.com');" target="_blank">andregarciacarneiro@gmail.com</a>></i></b> escreveu:<br>
<blockquote style="border-left:2px solid rgb(16,16,255);margin-left:5px;padding-left:5px"><br>De: Andre Carneiro <<a href="javascript:_e({}, 'cvml', 'andregarciacarneiro@gmail.com');" target="_blank">andregarciacarneiro@gmail.com</a>><br>
Assunto: Re: [Rio-pm] xpath<br>Para: "Perl Mongers Rio de Janeiro" <<a href="javascript:_e({}, 'cvml', 'rio-pm@pm.org');" target="_blank">rio-pm@pm.org</a>><br>Data: Quarta-feira, 3 de Abril de 2013, 14:00<br>
<br><div><div>Não, não pode!</div><div><br></div><div>Evite esse tipo de atitude o máximo possível!</div><div><br></div>Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque eu 'posso' que signfica que eu farei.<div>

<br><div>Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o suficiente para não ser parseado, é muito provável que não valha a pena parsea-lo!</div><div><br></div><div>Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra pegar!</div>

<div><br></div><div>Em 99,99999% dos casos é desnecessário...</div><div><br></div><div><br></div><div>Cheers!</div><div><div><br></div><div><br><br><div>2013/4/3 Tiago Peczenyj <span dir="ltr"><<a rel="nofollow" href="http://mc/compose?to=tiago.peczenyj@gmail.com" target="_blank">tiago.peczenyj@gmail.com</a>></span><br>

<blockquote style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">IMHO vc pode sim usar regex para parserar html SE<div><br></div><div>1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não façam muito sentido)</div>

<div>2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" ou "ERRO)</div>

<div>3) vc está desesperado<br><div><br>Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso, como criterio geral, é furada.</div>



<div><br></div><div><br></div><div><div>2013/4/3 Marcio Ferreira <span dir="ltr"><<a rel="nofollow" href="http://mc/compose?to=marciodesouzaferreira@gmail.com" target="_blank">marciodesouzaferreira@gmail.com</a>></span><br>



<blockquote style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser tocados:<div><br></div><div>


o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc de fato se concentra no seu problema e esquece o resto.</div>


<div>o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu DOM, isso é legal!</div><div><br></div><div>NUNCA USE REGEX PRA PARSER DE HTML</div><div><a rel="nofollow" href="http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top" target="_blank">http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top</a><br>






</div><div><br></div><div>Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/</div>






<div><br></div><div>**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P<div><br clear="all"><div><br>[]s,<br><br>Marcio Ferreira<div></div><div>

skype: marcio.ferreir4</div>

<div><a rel="nofollow">(21) 8365-7768</a><br></div></div>
<br><br></div><div>2013/4/3 Nuba Princigalli <span dir="ltr"><<a rel="nofollow" href="http://mc/compose?to=nuba@fastmail.fm" target="_blank">nuba@fastmail.fm</a>></span><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">

<div><div>

<div><div>


<u></u>




<div><div><div>On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:<br></div>
<blockquote type="cite"><div dir="ltr"><div>Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o workflow).<br></div>
</div>
</blockquote><div> </div>
</div><div>Já usei e recomendo o <a rel="nofollow" href="https://metacpan.org/module/HTML::TreeBuilder::XPath" target="_blank">https://metacpan.org/module/HTML::TreeBuilder::XPath</a><br></div>
<div> </div>
<div><div>--<br></div>
<div>Nuba R. Princigalli  <a rel="nofollow" href="http://mc/compose?to=nuba@pauleira.com" target="_blank">nuba@pauleira.com</a>  <a rel="nofollow" href="http://pauleira.com" target="_blank">http://pauleira.com</a>  @nprincigalli<br>
</div>
<div>Discipline is not an end in itself, just a means to an end. - King Crimson<br></div>
<div> </div>
</div>
</div>

<br></div></div></div></div><div><div>_______________________________________________<br>
Rio-pm mailing list<br>
<a rel="nofollow" href="http://mc/compose?to=Rio-pm@pm.org" target="_blank">Rio-pm@pm.org</a><br>
<a rel="nofollow" href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></div></div></blockquote></div><br></div></div><div>
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a rel="nofollow" href="http://mc/compose?to=Rio-pm@pm.org" target="_blank">Rio-pm@pm.org</a><br>
<a rel="nofollow" href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></div></blockquote></div></div></div></div></blockquote></div></div></div></div></div>
-----Anexo incorporado-----<br><br><div>_______________________________________________<br>Rio-pm mailing list<br><a href="http://mc/compose?to=Rio-pm@pm.org" target="_blank">Rio-pm@pm.org</a><br><a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a></div>
</blockquote></td></tr></tbody></table></blockquote>