<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 10pt;
font-family:Tahoma
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>
Desculpa o flood esqueci do link -> http://pastebin.com/fgYhBrsp<br><br><div><div id="SkyDrivePlaceholder"></div><hr id="stopSpelling">From: guedes_1000@hotmail.com<br>To: rio-pm@pm.org<br>Date: Sun, 21 Oct 2012 16:10:16 +0000<br>Subject: Re: [Rio-pm] HTML::Parse<br><br>

<style><!--
.ExternalClass .ecxhmmessage P
{padding:0px;}
.ExternalClass body.ecxhmmessage
{font-size:10pt;font-family:Tahoma;}

--></style>
<div dir="ltr">
Bom, eu consegui completar o script. Ainda devo fazer algumas alterações.<br><br>So um problema, se alguem puder testar vejam que apesar de baixar o arquivo ele vem meio que acelerado, estranho.<br><br>Ainda para listas com mais de uma musica volta essa msg:<br>plrint() on closed filehandle OUT at C:\User\AG\Desktop\mes.pl line 47.<br><br><div><div id="ecxSkyDrivePlaceholder"></div><hr id="ecxstopSpelling">From: guedes_1000@hotmail.com<br>To: rio-pm@pm.org<br>Date: Sun, 21 Oct 2012 14:48:19 +0000<br>Subject: Re: [Rio-pm] HTML::Parse<br><br>

<style><!--
.ExternalClass .ecxhmmessage P
{padding:0px;}
.ExternalClass body.ecxhmmessage
{font-size:10pt;font-family:Tahoma;}

--></style>
<div dir="ltr">
Ola.<br><br>Eu estoiu tentando usar o WWW::Mechanize, mas não estou entendendo uma coisa.<br>Eu tenho um botão:<br><pre id="ecxline1"><span></span><span><<span class="ecxstart-tag">a</span> <span class="ecxattribute-name">href</span>="<a class="ecxattribute-value" target="_blank">/dl/347357664b655256724e/554545485125135/Fernando+E+Sorocaba+++++Tenso.mp3</a>" <span class="ecxattribute-name">rel</span>="<a class="ecxattribute-value" target="_blank">nofollow</a>" <span class="ecxattribute-name">title</span>="<a class="ecxattribute-value" target="_blank">Download Fernando E Sorocaba     Tenso.mp3!</a>"></span><span>
<span id="ecxline127"></span>        </span><span><<span class="ecxstart-tag">img</span> <span class="ecxattribute-name">src</span>="<a class="ecxattribute-value" target="_blank">/images/download.jpg</a>" <span class="ecxattribute-name">width</span>="<a class="ecxattribute-value" target="_blank">95</a>" <span class="ecxattribute-name">height</span>="<a class="ecxattribute-value" target="_blank">25</a>" <span class="ecxattribute-name">alt</span>="<a class="ecxattribute-value" target="_blank">Baixar Fernando E Sorocaba     Tenso</a>" <span class="ecxattribute-name">style</span>="<a class="ecxattribute-value" target="_blank">border:0</a>" <span>/</span>></span><span></span><span></<span class="ecxend-tag">a</span>></span><span></span></pre><br>Como eu faço para clicar nele usando o metodo <a href="http://search.cpan.org/~jesse/WWW-Mechanize-1.72/lib/WWW/Mechanize.pm#%24mech-%3eclick_button%28_..._%29" target="_blank">click_button</a>? Como faço para setar esse botão?<br>Eu tentei:<br>$m->click_button(value=><span><a class="ecxattribute-value" target="_blank">/dl/347357664b655256724e/554545485125135/Fernando+E+Sorocaba+++++Tenso.mp3</a></span>);<br>Mas não da certo.<br><br><br><div><div id="ecxSkyDrivePlaceholder"></div><hr id="ecxstopSpelling">From: guedes_1000@hotmail.com<br>To: rio-pm@pm.org<br>Date: Sat, 20 Oct 2012 17:28:46 +0000<br>Subject: Re: [Rio-pm] HTML::Parse<br><br>

<style><!--
.ExternalClass .ecxhmmessage P
{padding:0px;}
.ExternalClass body.ecxhmmessage
{font-size:10pt;font-family:Tahoma;}

--></style>
<div dir="ltr">
Opa, Bruno, obrigado pela resposta sua e de todos os outros que estão me ajudando.<br><br>Irei tentar seguir o que me falaram e depois darei um feedback dos resultados.<br><br><br><div><div id="ecxSkyDrivePlaceholder"></div><hr id="ecxstopSpelling">From: bruno.buss@gmail.com<br>Date: Sat, 20 Oct 2012 13:44:45 -0300<br>To: rio-pm@pm.org<br>Subject: Re: [Rio-pm] HTML::Parse<br><br>Então provavelmente eles estão verificando pelo referer no header do request HTTP [1].<div><br></div><div>Não sei como funciona o LWP::Simple, mas com o LWP::UserAgent você consegue setar parametros pro header a ser enviado. No caso você deveria setar o referer para '<a href="http://www.buscamp3.org/download/thaeme+e+thiago+ai+que+do_3473494b6c3636334d55.html" target="_blank">http://www.buscamp3.org/download/thaeme+e+thiago+ai+que+do_3473494b6c3636334d55.html</a>'.</div>

<div><br></div><div>Outra opção talvez seja usar o WWW::Mechanize, acho que ele faz isso automaticamente para você, se você utilizar as funções de "navegação" dele.</div><div><br></div><div>No mais, deixe-me discordar da seguinte frase que você escreveu anteriormente (sobre XPath e seletores CSS): "Nesse caso não é pra mim, não retenho esses conhecimentos."</div>

<div>Se você não conhece XPath e/ou seletores CSS, você deveria procurar dar uma olhada/estudada breve neles se isso for necessário para resolver um problema seu. É uma mentalidade melhor do que assumir que você não sabe, nem vai apreender e por isso limitar o seu leque de opções para fazer o que você quer ;)</div>

<div><br></div><div><br></div><div>[ ]'s</div><div><br></div><div>[1] <a href="https://en.wikipedia.org/wiki/HTTP_referer" target="_blank">https://en.wikipedia.org/wiki/HTTP_referer</a></div><div><br><div class="ecxgmail_quote">2012/10/20 Aureliano Guedes <span dir="ltr"><<a href="mailto:guedes_1000@hotmail.com">guedes_1000@hotmail.com</a>></span><br>

<blockquote class="ecxgmail_quote" style="border-left:1px #ccc solid;padding-left:1ex">


<div><div dir="ltr">
Pois é Bruno, aqui tambem da erro, mas se eu entrar nessa pagina <a href="http://www.buscamp3.org/download/thaeme+e+thiago+ai+que+do_3473494b6c3636334d55.html" rel="nofollow" target="_blank">http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/</a> e clicar no link o download inicia, e aparentemente é esse o link, a não ser que esse link que eu esteja pegando da pagina esteja errado é o link de download seja outro.<br>

<br><div><div></div><hr>From: <a href="mailto:bruno.buss@gmail.com">bruno.buss@gmail.com</a><br>Date: Sat, 20 Oct 2012 12:39:02 -0300<div><div class="h5"><br>To: <a href="mailto:rio-pm@pm.org">rio-pm@pm.org</a><br>

Subject: Re: [Rio-pm] HTML::Parse<br><br>Você consegue fazer o download desse arquivo manualmente, colando o endereço no seu próprio browser?<div>Aqui esse link da erro...</div><div><br></div><div>[ ]'s<br><br><div>2012/10/20 Aureliano Guedes <span dir="ltr"><<a href="mailto:guedes_1000@hotmail.com">guedes_1000@hotmail.com</a>></span><br>



<blockquote style="border-left:1px #ccc solid;padding-left:1ex">


<div><div dir="ltr">
Eu tinha chegado nesses links do mp3, o problema é que fazer o download deles não funciona.<br><br>No caso:<br><br>use LWP::Simple;<br>my @url = get ('<a href="http://www.buscamp3.org/dl/34736943505352494374/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3%27" target="_blank">www.buscamp3.org/dl/34736943505352494374/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3'</a>);<br>



open OUT,">". 'abcde.mp3';<br>print OUT $_ foreach (@url);<br><br>Obtive um arquivo vazio.<br><br>Oque pode ser??<br><div><div><div></div><hr>From: <a href="mailto:guedes_1000@hotmail.com">guedes_1000@hotmail.com</a><br>



To: <a href="mailto:rio-pm@pm.org">rio-pm@pm.org</a><br></div>Date: Sat, 20 Oct 2012 15:25:29 +0000<div><div><br>Subject: Re: [Rio-pm] HTML::Parse<br><br>


<div dir="ltr">
Web::Scraper requer conhecimento de XPath e/ou seletores CSS.<br><br>Nesse caso não é pra mim, não retenho esses conmhecimentos.<br><br><div><div></div><hr>From: <a href="mailto:creaktive@gmail.com">creaktive@gmail.com</a><br>



Date: Sat, 20 Oct 2012 00:13:10 -0300<br>To: <a href="mailto:rio-pm@pm.org">rio-pm@pm.org</a><br>Subject: Re: [Rio-pm] HTML::Parse<br><br>Web::Scraper requer conhecimento de XPath e/ou seletores CSS.<div>


No caso do link que você passou, URL do primeiro MP3 pode ser obtida via XPath:</div>
<div><br></div><div>//table[@class='linhas_lista'][1]//tr/td[2]/a/@href</div>

<div><br></div><div>De onde tirei isso? De uma extensão pro Chrome, chamada XPath Helper: <a href="https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl" target="_blank">https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl</a></div>





<div>Firefox tem (tinha?) um tal do XPather: <a href="https://addons.mozilla.org/en-US/firefox/addon/xpather/" target="_blank">https://addons.mozilla.org/en-US/firefox/addon/xpather/</a><div><br></div><div>Provando o que o Marcio disse:</div>





<div><br></div><div><div>stas@Stanislaws-MacBook-Pro:~$ perl -CADS -MDDP -MURI -MWeb::Scraper -e 'p scraper{process q(//h1/strong),title=>q(text);process q(//a[@href=~/\.mp3$/]),q(url[])=>q(@href)}->scrape((URI->new(q(<a href="http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/%29" target="_blank">http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/)</a>)) x 2)'</div>





<div>Printing in line 1 of -e:</div><div>\ {</div><div>    title   "Baixar Thaeme e Thiago - Ai que do/ grátis",</div><div>    url     [</div><div>        [0] <a href="http://www.buscamp3.org/dl/3473494b6c3636334d55/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3" target="_blank">http://www.buscamp3.org/dl/3473494b6c3636334d55/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3</a>,</div>





<div>        [1] <a href="http://www.buscamp3.org/dl/3473674c78687936326f/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3" target="_blank">http://www.buscamp3.org/dl/3473674c78687936326f/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3</a>,</div>





<div>        [2] <a href="http://www.buscamp3.org/dl/34736943505352494374/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3" target="_blank">http://www.buscamp3.org/dl/34736943505352494374/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3</a>,</div>





<div>        [3] <a href="http://www.buscamp3.org/dl/34734c6f727448494d71/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3" target="_blank">http://www.buscamp3.org/dl/34734c6f727448494d71/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3</a>,</div>





<div>        [4] <a href="http://www.buscamp3.org/dl/3473644e636d6f345245/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3" target="_blank">http://www.buscamp3.org/dl/3473644e636d6f345245/554545485125135/Thaeme+E+Thiago+-+Ai+Que+Do.mp3</a></div>





<div>    ]</div><div>}</div></div><div><br></div><div>Sem ser one-liner maldito:</div><div><br></div><div>#!/usr/bin/env perl</div><div>use common::sense;</div><div><div>use Data::Printer;</div><div>use URI;</div><div>use Web::Scraper;</div>





<div><br></div><div>my $url = URI->new('<a href="http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/%27" target="_blank">http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/'</a>);</div><div><br></div>



<div>p scraper {</div>

<div>    process q(//h1/strong),</div><div>        title => 'text';</div><div>    process q(//a[@href=~/\\.mp3$/]),</div><div>        'url[]' => '@href';</div><div>}->scrape($url, $url);</div>





</div><div><br></div><div>ABS()<br><br>
<br><br><div>2012/10/19 Aureliano Guedes <span dir="ltr"><<a href="mailto:guedes_1000@hotmail.com">guedes_1000@hotmail.com</a>></span><br><blockquote style="border-left:1px #ccc solid;padding-left:1ex">








<div><div dir="ltr">
Parece interessante mesmo, mas dificil de entender, principalmente quando é alguem que como eu não sabe nada de HTML.<br>Realmente não entendi como faria tudo isso com o Web::Scraper.<br><br><div><div></div><hr>From: <a href="mailto:marciodesouzaferreira@gmail.com">marciodesouzaferreira@gmail.com</a><br>





Date: Fri, 19 Oct 2012 21:14:53 -0300<div><br>To: <a href="mailto:rio-pm@pm.org">rio-pm@pm.org</a><br>Subject: Re: [Rio-pm] HTML::Parse<br><br></div><div><div>estou cansado pra implementar, mas o Web::Scraper é tipo um néctar dos deuses, vc faz um crawler em 5' com ele, bem estilo Perl(que sai da frente e deixa você focar na solução) isso se o HTML não for um monstrengo =)<br clear="all">







<br>[]s,<br><br>Marcio Ferreira<div>@_marcioferreira</div><div><a target="_blank">(11) 8567-1482</a>   skype: marcio.ferreir4</div><div><a href="http://marciodesouzaferreira.blogspot.com/" target="_blank">marciodesouzaferreira.blogspot.com</a><br>







</div><br>
<br><br><div>2012/10/19 Rafael Prenzier <span dir="ltr"><<a href="mailto:rafaelprenzier@gmail.com">rafaelprenzier@gmail.com</a>></span><br><blockquote style="border-left:1px #ccc solid;padding-left:1ex">







WWW::Mechanize ++<div><div><br><br><div>2012/10/19 Ricardo Filipo <span dir="ltr"><<a href="mailto:ricardo_filipo@yahoo.com.br">ricardo_filipo@yahoo.com.br</a>></span><br>

<blockquote style="border-left:1px #ccc solid;padding-left:1ex">
Eu gosto do HTML::TreeBuilder pois dá uma visão mais organizada do DOM.<br><br>Veja um exemplo de uso:<br><a href="https://github.com/rfilipo/WebService-EBC/blob/master/lib/WebService/EBC/News.pm" target="_blank">https://github.com/rfilipo/WebService-EBC/blob/master/lib/WebService/EBC/News.pm</a><br>








<br> <blockquote style="margin-left:5px;padding-left:5px">  <div style="font-family:times new roman,new york,times,serif;font-size:12pt"> <div style="font-family:times new roman,new york,times,serif;font-size:12pt">


 <div dir="ltr"> <font face="Arial"> <hr size="1">  <b><span style="font-weight:bold">De:</span></b> Aureliano Guedes <<a href="mailto:guedes_1000@hotmail.com">guedes_1000@hotmail.com</a>><br> <b><span style="font-weight:bold">Para:</span></b> Rio PM <<a href="mailto:rio-pm@pm.org">rio-pm@pm.org</a>> <br>








 <b><span style="font-weight:bold">Enviadas:</span></b> Sexta-feira, 19 de Outubro de 2012 13:22<br> <b><span style="font-weight:bold">Assunto:</span></b> [Rio-pm] HTML::Parse<br> </font> </div><div><div> <br><div>



<div><div dir="ltr">
Ola monges,<br>tudo bem?<br><br>Qual um bom modulo para buscar string em um HTML?<br>Vocês aconselham o HTML::Parse?<br><br>Eu não entendo muito de html, mas estou tentando pegar um link dentro de uma pagina.<br><br>Um exemplo é esse: <a href="http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/" target="_blank">http://www.buscamp3.org/busca/Thaeme+e+Thiago+-+Ai+que+do/</a><br>








<br>Os Links estão nesse formato: <br><pre><span><<span>a</span> <span>href</span>="<a rel="nofollow" target="_blank">/download/thaeme+e+thiago+ai+que+do_3473494b6c3636334d55.html</a>" <span>title</span>="<a rel="nofollow" target="_blank">Thaeme E Thiago - Ai Que Do</a>"></span><span></span></pre>








<br>O Problema é que no caso dessa pagina tem 4 links desse modelo e eu queria pegar apenas o primeiro.<br>Poderia usar regexp mas anteriormente me disseram que não é muito
 elegante parsear HTML na unha.<br><br>Sei que a duvida é banal, mas se puderem me dar uma dica agradeço.<br><br>Att,<br>Aureliano Guedes.<br>                                        </div></div>
</div><br></div></div><div>_______________________________________________<br>Rio-pm mailing list<br><a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br><a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br>








<br> </div></div> </div> </blockquote>  <br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br><br clear="all"><div><br></div></div></div><span><font color="#888888">-- <br>







Rafael Prenzier dos Santos | Engenheiro e Perl Monger <br>
<br><div><img> <a target="_blank">(11) 5209-0847</a></div><div><div><div><div><br></div><div><a href="http://www.prenzier.com" target="_blank">www.prenzier.com</a><br>

</div>
<div><br><div><a href="http://gplus.to/prenzier" target="_blank"><img></a> <a href="http://www.facebook.com/rafaelprenzier" target="_blank"><img></a> <a href="http://twitter.com/prenzier/" target="_blank"><img></a> <a href="http://www.orkut.com.br/Main#Profile?uid=13496291347057199080" target="_blank"><img></a> <a href="http://cid-eacb613d80ce8dba.profile.live.com/" target="_blank"><img></a> <a href="http://www.delicious.com/rafaelprenzier/" target="_blank"><img></a> <a href="http://www.google.com/profiles/rafaelprenzier" target="_blank"><img></a> <a href="http://br.linkedin.com/pub/rafael-prenzier-dos-santos/29/6a2/478" target="_blank"><img></a> <a href="http://www.youtube.com/prenzier" target="_blank"><img></a> <a href="http://www.diigo.com/user/prenzier" target="_blank"><img></a> <a href="http://www.shelfari.com/rprenzier/shelf" target="_blank"><img></a> <a href="http://flavors.me/prenzier" target="_blank"><img></a> </div>








<div><a href="http://www.diigo.com/user/prenzier" target="_blank"></a><br><div><br></div></div></div></div></div></div><br>
</font></span><br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br>
<br>_______________________________________________
Rio-pm mailing list
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a></div></div></div>                                           </div></div>
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br></div></div>
<br>_______________________________________________
Rio-pm mailing list
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a></div>                                           </div>
<br>_______________________________________________
Rio-pm mailing list
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a></div></div></div>                                           </div></div>
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Bruno C. Buss<br><a href="http://www.brunobuss.net" target="_blank">http://www.brunobuss.net</a><br>




</div>
<br>_______________________________________________
Rio-pm mailing list
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a></div></div></div>                                           </div></div>
<br>_______________________________________________<br>
Rio-pm mailing list<br>
<a href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Bruno C. Buss<br><a href="http://www.brunobuss.net" target="_blank">http://www.brunobuss.net</a><br>


</div>
<br>_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm</div>                                    </div>
<br>_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm</div>                                    </div>
<br>_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm</div>                                    </div>
<br>_______________________________________________
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm</div>                                    </div></body>
</html>