Bom saber que existem mais bons bioinformatas por aqui!<br><br>O Edem Cardin e o André Carneiro estão corretíssimos. Mas como eu disse: não existe verdade absoluta, existem muitas variações de técnicas utilizadas para o sequencimento.<br>


E a analogia com a mineradora também é correta, perl faz o trabalho pesado, filtrar muitos dados antes dos alinhadores ( no geral desenvolvidos em c,c++ ) e após os alinhadores.<br><br>Um ponto que vejo mudanças nas técnicas descritas é que hoje os sequenciadores geram fragmentos muito pequenos de 36, 50 nucleotídeos enquanto a pouco tempo atrás eram de 400 nucleotideos. O que deixa o trabalho um pouco mais... complicado (ou divertido hehe). E não são só usados sequencias de shotguns, mas pair-end que são pares a uma distância pré-definida bioquimicamente.<br>


Para quem nunca trabalhou com bioinformatica ter uma noção do volume de dados:<br>O genoma tem 3 bilhões de nucleotideos. Pra ter um dado confiável é necessário ter uma cobertura de 20-30 vezes a região sequenciada (se for o genoma inteiro - 6x10^10 de nucleotideos no melhor caso) colocando uma margem de erro 100 bilhões de nucleotídeos alguns sequenciadores chegam nas casas dos trilhões. Tudo isso dividido em 36 ou 50 ACTGs (São alguns milhões de linhas no formato que o André comentou :) )<br>


 <br><blockquote style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;" class="gmail_quote">É assim mesmo ? Perl é muito utilizado, mas não oficialmente ? Existe

troca de experiências entre os pesquisadores geneticista ? <br></blockquote>Solli, existe bastante troca sim, que eu lembro de cabeça são 2 ou 3 congressos anuais, que tem tiver interesse vale a pena ir! Um é da SBC (Sociedade Brasileira de Computação) e outro X-Meeting (da ab3c) todos eles com bastante informação computacional e biologicia.<br>


Quanto a ser oficial ou não, acho que isso não existe, cada laboratório escolhe qual linguagem vai usar... Mas tenho certeza que perl é das linguagens mais utilizadas, se não a mais utilizada, por bioinformatas.<br><br><br>


Abração, <br>E muito obrigado pela recepção! Até mais.<br>

Fábio Navarro<br><br><div class="gmail_quote">2010/3/5 Eden Cardim <span dir="ltr">&lt;<a href="mailto:edencardim@gmail.com">edencardim@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">


&gt;&gt;&gt;&gt;&gt; &quot;Alexei&quot; == Alexei Znamensky &lt;<a href="mailto:russoz@gmail.com">russoz@gmail.com</a>&gt; writes:<br>

<br>

    Alexei&gt; Fábio, fiquei curioso: as sequências de DNA são armazenadas<br>

    Alexei&gt; como um arquivo texto, simples? Daí é só rodar uma regex em<br>

    Alexei&gt; cima? Ou são usados arquivos DB, gdbm ou algum outro tipo de<br>

    Alexei&gt; armazenamento mais específico para esse tipo de sistema?<br>

<br>

O volume de dados na bioinformática é tipicamente muito grande para ser<br>

processado pelas expressões regulares do Perl. O que acontece é que<br>

antes do processamento útil ser feito em cima dos dados, tem algumas<br>

etapas de triagem que são razoavelmente triviais, devido a efeitos<br>

colaterais do processo de sequenciamento. Descrevendo brevemente, eles<br>

injetam o material genético que vai ser sequenciado em bactérias, essas<br>

bactérias se reproduzem, &quot;clonando&quot; o material, mas por causa disso, a<br>

sequência fica misturada com a da bactéria, então antes de se fazer o<br>

processamento em si, você precisa separar o material objeto do material<br>

da bactéria. O processo de sequenciamento em si também tem uma margem de<br>

erro grande e as leituras erradas precisam ser removidas pra não<br>

confundir os algoritmos de comparação/indução mais pra frente no processo.<br>

<br>

Geralmente é aí que Perl entra na jogada, fazendo esse processamento<br>

mais trivial ou &quot;colando&quot; outras ferramentas que o façam. É similar ao<br>

que acontece numa mineradora. Perl seria equivalente ao maquinário<br>

pesado que faz a trituração, flotação, esteiras de transporte, etc.<br>

<br>

Depois disso entram coisas como alinhamento comparativo de sequências,<br>

geralmente contra o ganbank e outras técnicas de reconhecimento de<br>

padrões como o Modelo Oculto de Markov. No caso do alinhamento, existe<br>

um algoritmo bastante popular chamado BLAST, que usa programação<br>

dinâmica e um formato próprio de banco de dados pra fazer as<br>

comparações. O trabalho com Perl geralmente é mais na parte de<br>

infra-estrutura do processamento.<br>

<br>

Esses são resíduos do que sobrou da época que eu trabalhei com isso, o<br>

Fábio pode me corrigir se eu estiver equivocado.<br>

<font color="#888888"><br>

--<br>

   Eden Cardim       Need help with your Catalyst or DBIx::Class project?<br>

  Code Monkey                    <a href="http://www.shadowcat.co.uk/catalyst/" target="_blank">http://www.shadowcat.co.uk/catalyst/</a><br>

 Shadowcat Systems Ltd.  Want a managed development or deployment platform?<br>

<a href="http://edenc.vox.com/" target="_blank">http://edenc.vox.com/</a>            <a href="http://www.shadowcat.co.uk/servers/" target="_blank">http://www.shadowcat.co.uk/servers/</a><br>

</font><div><div></div><div class="h5"><br>

_______________________________________________<br>

SaoPaulo-pm mailing list<br>

<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>

<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a></div></div></blockquote></div><br>