[SP-pm] Boas Vindas ao Fabio Navarro

Fri Mar 5 10:29:39 PST 2010

Bom saber que existem mais bons bioinformatas por aqui!

O Edem Cardin e o André Carneiro estão corretíssimos. Mas como eu disse: não
existe verdade absoluta, existem muitas variações de técnicas utilizadas
para o sequencimento.
E a analogia com a mineradora também é correta, perl faz o trabalho pesado,
filtrar muitos dados antes dos alinhadores ( no geral desenvolvidos em c,c++
) e após os alinhadores.

Um ponto que vejo mudanças nas técnicas descritas é que hoje os
sequenciadores geram fragmentos muito pequenos de 36, 50 nucleotídeos
enquanto a pouco tempo atrás eram de 400 nucleotideos. O que deixa o
trabalho um pouco mais... complicado (ou divertido hehe). E não são só
usados sequencias de shotguns, mas pair-end que são pares a uma distância
pré-definida bioquimicamente.
Para quem nunca trabalhou com bioinformatica ter uma noção do volume de
dados:
O genoma tem 3 bilhões de nucleotideos. Pra ter um dado confiável é
necessário ter uma cobertura de 20-30 vezes a região sequenciada (se for o
genoma inteiro - 6x10^10 de nucleotideos no melhor caso) colocando uma
margem de erro 100 bilhões de nucleotídeos alguns sequenciadores chegam nas
casas dos trilhões. Tudo isso dividido em 36 ou 50 ACTGs (São alguns milhões
de linhas no formato que o André comentou :) )

> É assim mesmo ? Perl é muito utilizado, mas não oficialmente ? Existe troca
> de experiências entre os pesquisadores geneticista ?
>
Solli, existe bastante troca sim, que eu lembro de cabeça são 2 ou 3
congressos anuais, que tem tiver interesse vale a pena ir! Um é da SBC
(Sociedade Brasileira de Computação) e outro X-Meeting (da ab3c) todos eles
com bastante informação computacional e biologicia.
Quanto a ser oficial ou não, acho que isso não existe, cada laboratório
escolhe qual linguagem vai usar... Mas tenho certeza que perl é das
linguagens mais utilizadas, se não a mais utilizada, por bioinformatas.

Abração,
E muito obrigado pela recepção! Até mais.
Fábio Navarro

2010/3/5 Eden Cardim <edencardim at gmail.com>

> >>>>> "Alexei" == Alexei Znamensky <russoz at gmail.com> writes:
>
>    Alexei> Fábio, fiquei curioso: as sequências de DNA são armazenadas
>    Alexei> como um arquivo texto, simples? Daí é só rodar uma regex em
>    Alexei> cima? Ou são usados arquivos DB, gdbm ou algum outro tipo de
>    Alexei> armazenamento mais específico para esse tipo de sistema?
>
> O volume de dados na bioinformática é tipicamente muito grande para ser
> processado pelas expressões regulares do Perl. O que acontece é que
> antes do processamento útil ser feito em cima dos dados, tem algumas
> etapas de triagem que são razoavelmente triviais, devido a efeitos
> colaterais do processo de sequenciamento. Descrevendo brevemente, eles
> injetam o material genético que vai ser sequenciado em bactérias, essas
> bactérias se reproduzem, "clonando" o material, mas por causa disso, a
> sequência fica misturada com a da bactéria, então antes de se fazer o
> processamento em si, você precisa separar o material objeto do material
> da bactéria. O processo de sequenciamento em si também tem uma margem de
> erro grande e as leituras erradas precisam ser removidas pra não
> confundir os algoritmos de comparação/indução mais pra frente no processo.
>
> Geralmente é aí que Perl entra na jogada, fazendo esse processamento
> mais trivial ou "colando" outras ferramentas que o façam. É similar ao
> que acontece numa mineradora. Perl seria equivalente ao maquinário
> pesado que faz a trituração, flotação, esteiras de transporte, etc.
>
> Depois disso entram coisas como alinhamento comparativo de sequências,
> geralmente contra o ganbank e outras técnicas de reconhecimento de
> padrões como o Modelo Oculto de Markov. No caso do alinhamento, existe
> um algoritmo bastante popular chamado BLAST, que usa programação
> dinâmica e um formato próprio de banco de dados pra fazer as
> comparações. O trabalho com Perl geralmente é mais na parte de
> infra-estrutura do processamento.
>
> Esses são resíduos do que sobrou da época que eu trabalhei com isso, o
> Fábio pode me corrigir se eu estiver equivocado.
>
> --
>   Eden Cardim       Need help with your Catalyst or DBIx::Class project?
>  Code Monkey                    http://www.shadowcat.co.uk/catalyst/
>  Shadowcat Systems Ltd.  Want a managed development or deployment platform?
> http://edenc.vox.com/            http://www.shadowcat.co.uk/servers/
>
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm at pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20100305/26d32117/attachment-0001.html>