<div>Não, não pode!</div><div><br></div><div>Evite esse tipo de atitude o máximo possível!</div><div><br></div>Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque eu 'posso' que signfica que eu farei.<div>
<br><div>Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o suficiente para não ser parseado, é muito provável que não valha a pena parsea-lo!</div><div><br></div><div>Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra pegar!</div>
<div><br></div><div>Em 99,99999% dos casos é desnecessário...</div><div><br></div><div><br></div><div>Cheers!</div><div><div><br></div><div><br><br><div class="gmail_quote">2013/4/3 Tiago Peczenyj <span dir="ltr"><<a href="mailto:tiago.peczenyj@gmail.com" target="_blank">tiago.peczenyj@gmail.com</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">IMHO vc pode sim usar regex para parserar html SE<div><br></div><div>1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não façam muito sentido)</div>
<div>2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" ou "ERRO)</div>

<div>3) vc está desesperado<br><div class="gmail_extra"><br>Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso, como criterio geral, é furada.</div>


<div class="gmail_extra"><br></div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_quote">2013/4/3 Marcio Ferreira <span dir="ltr"><<a href="mailto:marciodesouzaferreira@gmail.com" target="_blank">marciodesouzaferreira@gmail.com</a>></span><br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser tocados:<div><br></div><div>


o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc de fato se concentra no seu problema e esquece o resto.</div>


<div>o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu DOM, isso é legal!</div><div><br></div><div>NUNCA USE REGEX PRA PARSER DE HTML</div><div><a href="http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top" target="_blank">http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top</a><br>





</div><div><br></div><div>Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/</div>





<div class="gmail_extra"><br></div><div class="gmail_extra">**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P<div><br clear="all"><div><br>[]s,<br><br>Marcio Ferreira<div></div><div>

skype: marcio.ferreir4</div>

<div><a href="tel:%2821%29%208365-7768" value="+12183657768" target="_blank">(21) 8365-7768</a><br></div></div>
<br><br></div><div class="gmail_quote">2013/4/3 Nuba Princigalli <span dir="ltr"><<a href="mailto:nuba@fastmail.fm" target="_blank">nuba@fastmail.fm</a>></span><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div><div class="h5">

<div><div>


<u></u>




<div><div><div>On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:<br></div>
<blockquote type="cite"><div dir="ltr"><div>Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o workflow).<br></div>
</div>
</blockquote><div> </div>
</div><div>Já usei e recomendo o <a href="https://metacpan.org/module/HTML::TreeBuilder::XPath" target="_blank">https://metacpan.org/module/HTML::TreeBuilder::XPath</a><br></div>
<div> </div>
<div><div>--<br></div>
<div>Nuba R. Princigalli  <a href="mailto:nuba@pauleira.com" target="_blank">nuba@pauleira.com</a>  <a href="http://pauleira.com" target="_blank">http://pauleira.com</a>  @nprincigalli<br></div>
<div>Discipline is not an end in itself, just a means to an end. - King Crimson<br></div>
<div> </div>
</div>
</div>

<br></div></div></div></div><div class="im"><div>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org" target="_blank">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></div></div></blockquote></div><br></div></div><div class="im">
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org" target="_blank">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></div></blockquote></div><span class="HOEnZb"><font color="#888888"><br><br clear="all"><div><br></div>
-- <br>Tiago B. Peczenyj<br>Linux User #405772<br>

<br><a href="http://about.me/peczenyj" target="_blank">http://about.me/peczenyj</a>
</font></span></div></div></div>
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br><br clear="all"><div><br></div>-- <br>André Garcia Carneiro<br>Software Engineer<br>
(11)982907780
</div></div></div>