[SP-pm] ordenando arquivos.

Thiago Yukio Kikuchi Oliveira stratust at gmail.com
Thu Jul 28 13:59:38 PDT 2011


2011/7/28 Bruno Buss <bruno.buss em gmail.com>

>
> Só de curiosidade, como vocês fazem a contagem de overlaps após terem as
> sequências ordenadas?
> (Eu não trabalho nem nunca estudei isso em específico, então desculpa se
> for uma pergunta besta :)
>

 Bem existem várias maneiras de fazer isso.
Já vi gente indo na força bruta. Ao invés de fazer o sort no arquivo de
alinhamento, eles criam um arquivo
para cada cromossomo com cada coordenada repetida e fazem o sort nesse
arquivo.

Por exemplo, o arquivo de alinhamento é assim:
#chromossomo #start #end
chr1 1 5
chr1 3 8

Esse arquivo pode ser representado graficamente assim:

chr1:
linha1: -----
linha2:   -----

Eles criam um arquivo chr1.txt com uma coluna com todas as posições que o
arquivo de alinhamento mostra:
chr1.txt:
# 1 até 5
1
2
3
4
5
# 3 até 8
3
4
5
6
7
8

Fazendo o sort desse arquivo temos:
chr1.txt.sorted
1
2
3
3
4
4
5
5
6
7
8


Parseando chr1.txt.sorted com um script em perl e contanto o que é repetida
podemos fazer a cobertura de cada posição:

1 -> 1
2 -> 1
3 -> 2
4 -> 2
5 -> 2
6 -> 1
7 -> 1
8 -> 1

Eu uso uma estratégia diferente. Vou explicar num outro e-mail, pois tenho
que sair agora.

[ ]'s


    /    Thiago Yukio Kikuchi Oliveira
(=\
  \=) Faculdade de Medicina de Ribeirão Preto
   /   Laboratório de Genética Molecular e Bioinformática
  /=) -----------------------------------------------------------------
(=/   Centro de Terapia Celular/CEPID/FAPESP - Hemocentro de Rib. Preto
  /    Rua Tenente Catão Roxo, 2501 CEP 14151-140
(=\   Ribeirão Preto - São Paulo
  \=) Fone: 55 16 2101-9300   Ramal: 9603
   /   E-mail: stratus em lgmb.fmrp.usp.br
  /=)            stratust em gmail.com
(=/
  /    Bioinformatic Team - BiT: http://lgmb.fmrp.usp.br
(=\   Hemocentro de Ribeirão Preto: http://pegasus.fmrp.usp.br
  \=)
   /  -----------------------------------------------------------------
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20110728/9ca3d5a9/attachment-0001.html>


More information about the SaoPaulo-pm mailing list