[SP-pm] ordenando arquivos.

Thiago Yukio Kikuchi Oliveira stratust at gmail.com
Thu Jul 28 12:44:30 PDT 2011


2011/7/27 Eden Cardim <edencardim em gmail.com>
>>>>> "Andre" == Andre Carneiro <andregarciacarneiro em gmail.com
>
> > writes:
>
>    Andre> Acho que a ordenação nesse caso não é em cima dos arquivos de
>    Andre> sequência em DNA, RNA, mas provavelmente nas listas de
>    Andre> arquivos FASTA e outros formatos. Normalmente são milhares ou
>    Andre> até milhões de arquivos, dependendo do 'bicho', ou da
>    Andre> 'salada'... uhauahauahauaha!!
>
> Mas aí não tem porque ordenar, desde que todos os arquivos sejam
> processados no final.


Na verdade o sort não é feito no arquivo de sequências inicial. É feito no
arquivo de alinhamento.
O problema é que agora existem Sequenciadores de nova-geração que geram
muitas sequencias, porém
de tamanho pequene (entre 36bp-100pb). Cada corrida gera arquivos texto de
tamanho entre 3GB - 15GB.

Só exemplificando:

Incialmente temos um arquivo texto com as sequências no formato FASTQ que
vem do sequenciamento.
O formato do arquivo é assim:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Um dos meus arquivos FASTQ possui 7.7G (com 168.061.844 linhas). Na verdade
são 2 arquivos
pois ele é pareado, mas dá pra usar apenas um neste exemplo.

Esse arquivo é alinhado contra o genoma do camundondo e aproximadamente 60%
das sequências são mapeadas.

Portanto o arquivo contendo o alinhamento tem ~60% do tamanho do arquivo com
as posições cromossomicas:
Ex:
#chromossomo #start #end #sequencias #qualidade #etc..
chr10 2345 2390 ...
chr2 1234 1289 ...
etc..

Esse arquivo de alinhamento não é ordenado. Uma das primeiras análises que
fazemos nesse arquivo de alinhamento é descobrir a cobertura do
sequenciamento (quantas sequencias cobrem a mesma região). E para fazer isso
é necessário ter as coordenadas genômicas ordenadas.



    /    Thiago Yukio Kikuchi Oliveira
(=\
  \=) Faculdade de Medicina de Ribeirão Preto
   /   Laboratório de Genética Molecular e Bioinformática
  /=) -----------------------------------------------------------------
(=/   Centro de Terapia Celular/CEPID/FAPESP - Hemocentro de Rib. Preto
  /    Rua Tenente Catão Roxo, 2501 CEP 14151-140
(=\   Ribeirão Preto - São Paulo
  \=) Fone: 55 16 2101-9300   Ramal: 9603
   /   E-mail: stratus em lgmb.fmrp.usp.br
  /=)            stratust em gmail.com
(=/
  /    Bioinformatic Team - BiT: http://lgmb.fmrp.usp.br
(=\   Hemocentro de Ribeirão Preto: http://pegasus.fmrp.usp.br
  \=)
   /  -----------------------------------------------------------------




> --
>    Eden Cardim       Need help with your Catalyst or DBIx::Class project?
>  Code Monkey                    http://www.shadowcat.co.uk/catalyst/
>  Shadowcat Systems Ltd.  Want a managed development or deployment platform?
> http://blog.edencardim.com/            http://www.shadowcat.co.uk/servers/
> http://twitter.com/#!/edenc
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20110728/a8ea861c/attachment.html>


More information about the SaoPaulo-pm mailing list