[SP-pm] Boas Vindas ao Fabio Navarro

Eden Cardim edencardim at gmail.com
Fri Mar 5 06:36:56 PST 2010


>>>>> "Alexei" == Alexei Znamensky <russoz em gmail.com> writes:

    Alexei> Fábio, fiquei curioso: as sequências de DNA são armazenadas
    Alexei> como um arquivo texto, simples? Daí é só rodar uma regex em
    Alexei> cima? Ou são usados arquivos DB, gdbm ou algum outro tipo de
    Alexei> armazenamento mais específico para esse tipo de sistema?

O volume de dados na bioinformática é tipicamente muito grande para ser
processado pelas expressões regulares do Perl. O que acontece é que
antes do processamento útil ser feito em cima dos dados, tem algumas
etapas de triagem que são razoavelmente triviais, devido a efeitos
colaterais do processo de sequenciamento. Descrevendo brevemente, eles
injetam o material genético que vai ser sequenciado em bactérias, essas
bactérias se reproduzem, "clonando" o material, mas por causa disso, a
sequência fica misturada com a da bactéria, então antes de se fazer o
processamento em si, você precisa separar o material objeto do material
da bactéria. O processo de sequenciamento em si também tem uma margem de
erro grande e as leituras erradas precisam ser removidas pra não
confundir os algoritmos de comparação/indução mais pra frente no processo.

Geralmente é aí que Perl entra na jogada, fazendo esse processamento
mais trivial ou "colando" outras ferramentas que o façam. É similar ao
que acontece numa mineradora. Perl seria equivalente ao maquinário
pesado que faz a trituração, flotação, esteiras de transporte, etc.

Depois disso entram coisas como alinhamento comparativo de sequências,
geralmente contra o ganbank e outras técnicas de reconhecimento de
padrões como o Modelo Oculto de Markov. No caso do alinhamento, existe
um algoritmo bastante popular chamado BLAST, que usa programação
dinâmica e um formato próprio de banco de dados pra fazer as
comparações. O trabalho com Perl geralmente é mais na parte de
infra-estrutura do processamento.

Esses são resíduos do que sobrou da época que eu trabalhei com isso, o
Fábio pode me corrigir se eu estiver equivocado.

-- 
   Eden Cardim       Need help with your Catalyst or DBIx::Class project?
  Code Monkey                    http://www.shadowcat.co.uk/catalyst/
 Shadowcat Systems Ltd.  Want a managed development or deployment platform?
http://edenc.vox.com/            http://www.shadowcat.co.uk/servers/



More information about the SaoPaulo-pm mailing list