2011/7/27 Eden Cardim <span dir="ltr"><<a href="mailto:edencardim@gmail.com">edencardim@gmail.com</a>></span><br>>>>>> "Andre" == Andre Carneiro <<a href="mailto:andregarciacarneiro@gmail.com">andregarciacarneiro@gmail.com</a><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

> writes:<br>
<br>
    Andre> Acho que a ordenação nesse caso não é em cima dos arquivos de<br>
    Andre> sequência em DNA, RNA, mas provavelmente nas listas de<br>
    Andre> arquivos FASTA e outros formatos. Normalmente são milhares ou<br>
    Andre> até milhões de arquivos, dependendo do 'bicho', ou da<br>
    Andre> 'salada'... uhauahauahauaha!!<br>
<br>
Mas aí não tem porque ordenar, desde que todos os arquivos sejam<br>
processados no final.</blockquote><br>Na verdade o sort não é feito no arquivo de sequências inicial. É feito no arquivo de alinhamento.<br>O problema é que agora existem Sequenciadores de nova-geração que geram muitas sequencias, porém<br>

de tamanho pequene (entre 36bp-100pb). Cada corrida gera arquivos texto de tamanho entre 3GB - 15GB.<br><br>Só exemplificando:<br><br>Incialmente temos um arquivo texto com as sequências no formato FASTQ que vem do sequenciamento.<br>

O formato do arquivo é assim: <br><br>@SEQ_ID<br>GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT<br>+<br>!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65<br><br>
Um dos meus arquivos FASTQ possui 7.7G (com 168.061.844 linhas). Na verdade são 2 arquivos<br>
pois ele é pareado, mas dá pra usar apenas um neste exemplo.<br><br>Esse arquivo é alinhado contra o genoma do camundondo e aproximadamente 60% das sequências são mapeadas.<br><br>Portanto o arquivo contendo o alinhamento tem ~60% do tamanho do arquivo com as posições cromossomicas:<br>

Ex:<br>#chromossomo #start #end #sequencias #qualidade #etc..<br>chr10 2345 2390 ...<br>chr2 1234 1289 ...<br>etc..<br><br>Esse arquivo de alinhamento não é ordenado. Uma das primeiras análises que fazemos nesse arquivo de alinhamento é descobrir a cobertura do sequenciamento (quantas sequencias cobrem a mesma região). E para fazer isso é necessário ter as coordenadas genômicas ordenadas.<br>

<br><br><br clear="all">    /    Thiago Yukio Kikuchi Oliveira<br>(=\  <br>  \=) Faculdade de Medicina de Ribeirão Preto<br>   /   Laboratório de Genética Molecular e Bioinformática<br>  /=) -----------------------------------------------------------------<br>

(=/   Centro de Terapia Celular/CEPID/FAPESP - Hemocentro de Rib. Preto<br>  /    Rua Tenente Catão Roxo, 2501 CEP 14151-140<br>(=\   Ribeirão Preto - São Paulo<br>  \=) Fone: 55 16 2101-9300   Ramal: 9603<br>   /   E-mail: <a href="mailto:stratus@lgmb.fmrp.usp.br">stratus@lgmb.fmrp.usp.br</a><br>

  /=)            <a href="mailto:stratust@gmail.com">stratust@gmail.com</a><br>(=/  <br>  /    Bioinformatic Team - BiT: <a href="http://lgmb.fmrp.usp.br">http://lgmb.fmrp.usp.br</a><br>(=\   Hemocentro de Ribeirão Preto: <a href="http://pegasus.fmrp.usp.br">http://pegasus.fmrp.usp.br</a><br>

  \=)<br>   /  -----------------------------------------------------------------<br>
<br><br><div class="gmail_quote"><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<font color="#888888"><br>
--<br>
</font><div><div class="h5">   Eden Cardim       Need help with your Catalyst or DBIx::Class project?<br>
  Code Monkey                    <a href="http://www.shadowcat.co.uk/catalyst/" target="_blank">http://www.shadowcat.co.uk/catalyst/</a><br>
 Shadowcat Systems Ltd.  Want a managed development or deployment platform?<br>
<a href="http://blog.edencardim.com/" target="_blank">http://blog.edencardim.com/</a>            <a href="http://www.shadowcat.co.uk/servers/" target="_blank">http://www.shadowcat.co.uk/servers/</a><br>
<a href="http://twitter.com/#%21/edenc" target="_blank">http://twitter.com/#!/edenc</a><br>
=begin disclaimer<br>
   Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>
 SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>
 L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a>><br>
=end disclaimer<br>
</div></div></blockquote><br></div><br>