[Rio-pm] Metodos de Download em Massa

Nicole Scherer bionica2007-perl em yahoo.com
Qui Maio 25 05:03:03 PDT 2017


Oi Aureliano,
eu teria usado um simples FOR, com rsync ou wget -c, porque normalmente o gargalo é a rede.A decisão por rsync, wget ou curl dependeria do servidor de onde estás baixando as sequências.
Já pensaste em usar algum pacote de bioperl do próprio banco de dados? Acho que o NCBI, o BioMart e outros tem pacotes com rotinas específicas.Também tem pacotes de R para TCGA e BioMart (entre outros).

Abs,Nicole 

    Em Terça-feira, 23 de Maio de 2017 23:26, Aureliano Guedes <guedes_1000 em hotmail.com> escreveu:
 

  <!--#yiv1330938000 P {margin-top:0;margin-bottom:0;}-->Ola Monges,
Gostaria de saber qual metodo vocês mais gostam para fazer downloads em massa.

Eu usava muito LWP, recentemente comecei usar uma combinação de Parallel::ForkManager e Furl, mas pra meu tipo de dado tem truncado parte dos download. (vale uma dica pra lidar com dados truncados?)

No meu caso, eu to fazendo download de mais me milhoes de sequencias, pra isso eu sigo a regra do servidor e peço apenas 500 por vez e limito em 10 fork.

Tem outros metodos que posso usar mas acabo perdendo e muito a eficiência. Por isso pretendo testar um benchmark em varias formas diferentes.

Bom, sei que existem ferramentas, BioPerl, etc... 

Abraços,
acpguedes
_______________________________________________
Rio-pm mailing list
Rio-pm em pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

   
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/rio-pm/attachments/20170525/f53cbbd7/attachment.html>


Mais detalhes sobre a lista de discussão Rio-pm