<html><head></head><body><div style="color:#000; background-color:#fff; font-family:Helvetica Neue, Helvetica, Arial, Lucida Grande, sans-serif;font-size:13px"><div id="yui_3_16_0_ym19_1_1495713452859_6983"><span>Oi Aureliano,</span></div><div id="yui_3_16_0_ym19_1_1495713452859_6996"><span><br></span></div><div id="yui_3_16_0_ym19_1_1495713452859_6997" dir="ltr"><span id="yui_3_16_0_ym19_1_1495713452859_7316">eu teria usado um simples FOR, com rsync ou wget -c, porque normalmente o gargalo é a rede.</span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7319"><span id="yui_3_16_0_ym19_1_1495713452859_7409">A decisão por rsync, wget ou curl dependeria do servidor de onde estás baixando as sequências.<br></span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7344"><span id="yui_3_16_0_ym19_1_1495713452859_7410">Já pensaste em usar algum pacote de bioperl do próprio banco de dados? Acho que o NCBI, o BioMart e outros tem pacotes com rotinas específicas.</span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7461"><span id="yui_3_16_0_ym19_1_1495713452859_7410">Também tem pacotes de R para TCGA e BioMart (entre outros).<br></span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7432"><span id="yui_3_16_0_ym19_1_1495713452859_7410"><br></span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7449"><span id="yui_3_16_0_ym19_1_1495713452859_7410">Abs,</span></div><div dir="ltr" id="yui_3_16_0_ym19_1_1495713452859_7450"><span id="yui_3_16_0_ym19_1_1495713452859_7410">Nicole</span></div> <div class="qtdSeparateBR"><br><br></div><div class="yahoo_quoted" style="display: block;"> <div style="font-family: Helvetica Neue, Helvetica, Arial, Lucida Grande, sans-serif; font-size: 13px;"> <div style="font-family: HelveticaNeue, Helvetica Neue, Helvetica, Arial, Lucida Grande, sans-serif; font-size: 16px;"> <div dir="ltr"><font size="2" face="Arial"> Em Terça-feira, 23 de Maio de 2017 23:26, Aureliano Guedes <guedes_1000@hotmail.com> escreveu:<br></font></div>  <br><br> <div class="y_msg_container"><div id="yiv1330938000">

 
<style type="text/css"><!--#yiv1330938000 P {margin-top:0;margin-bottom:0;}--></style>

<div dir="ltr">
<div id="yiv1330938000divtagdefaultwrapper" style="font-size:12pt;color:#000000;font-family:Calibri, Arial, Helvetica, sans-serif;" dir="ltr">
<div>Ola Monges,</div>
<div><br>
</div>
<div>Gostaria de saber qual metodo vocês mais gostam para fazer downloads em massa.<br>
</div>
<div><br>
Eu usava muito LWP, recentemente comecei usar uma combinação de Parallel::ForkManager e Furl, mas pra meu tipo de dado tem truncado parte dos download. (vale uma dica pra lidar com dados truncados?)
<br>
<br>
No meu caso, eu to fazendo download de mais me milhoes de sequencias, pra isso eu sigo a regra do servidor e peço apenas 500 por vez e limito em 10 fork.<br>
<br>
Tem outros metodos que posso usar mas acabo perdendo e muito a eficiência. Por isso pretendo testar um benchmark em varias formas diferentes.<br>
<br>
Bom, sei que existem ferramentas, BioPerl, etc... <br>
<br>
Abraços,<br>
acpguedes<br>
</div>
</div>
</div>
</div>_______________________________________________<br>Rio-pm mailing list<br><a ymailto="mailto:Rio-pm@pm.org" href="mailto:Rio-pm@pm.org">Rio-pm@pm.org</a><br><a href="http://mail.pm.org/mailman/listinfo/rio-pm" target="_blank">http://mail.pm.org/mailman/listinfo/rio-pm</a><br><br></div>  </div> </div>  </div></div></body></html>