<div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="gmail_quote"><br><div>Fábio, fiquei curioso: as sequências de DNA são armazenadas como um arquivo texto, simples? Daí é só rodar uma regex em cima? Ou são usados arquivos DB, gdbm ou algum outro tipo de armazenamento mais específico para esse tipo de sistema?</div>





<div><br></div></div></blockquote></div></blockquote><div><br>No meu tempo o formato dos arquivos oficial era o FASTA, e o formato era assim:<br><br><br>&gt;TAGDASEQ INFORMACAO EXTRA<br>agctctttcgatc...<br>&gt;OUTRATAGSEQ INFORMACAO EXTRA<br>
agctctttcgatc...<br><br><br>E assim por diante. No processo de &#39;shotguns&#39;, vc poderia ter milhares, ou até milhões de repetições de várias partes do genoma, e para organizar isso era necessário usar um programa que fazia o &#39;assembly&#39; dessa seq. No meu tempo era o CAP3 e o Phred/Phrap. Eu usava principalmente um programa para visualizar a montagem chamado Consed. Mas as vezes eu tinha que trabalhar no Windows, e nele eu usava o BioEdit, ou algo assim.<br>
<br>Nessas repetições de sequência, cada nucleotídeo (actg) tinha uma &#39;nota&#39;. O Consed fazia uma relação entre repetições de nucleotídeos e as notas para montar uma sequência única no final. Como na metodologia &#39;shotgun&#39; as sequências eram muito pequenas, sempre sobravam muitos &#39;gaps&#39; para resolver. No meu tempo eu usava o BLAST, capturando sequencias de DNA de diversos organismos para bater com a sequencia que eu já tinha, na esperança de obter as sequências faltantes. Esse sistema usa um algoritmo chamado &#39;Smith-Waterman&#39; para gerar as sobreposições da sequencia que eu enviaria a ele, com as sequencias que ele pega no GenBank,  e assim eu tinha vários resultados com várias notas também. Mas essa nota não era para cada nucleotídeo e sim para as sequencias que ele encontrou, ou se vc preferir, é uma nota de &#39;similaridade&#39;.   <br>
<br>No lab. que eu trabalhava, trabalhávamos com um erro de no máximo &#39;E&#39; elevado a -5. Se fosse maior que isso, descartávamos a sequencia, caso contrário, baixava o &#39;FASTA&#39; dessa sequencia, adicionava no meu diretório de READS(cada arquivo de seq. vc pode considerar como um READ). E gerava a sobreposição novamente, e o processo continuava até que a sequencia se completava com uma qualidade significativa.<br>
<br>Depois disso o pessoal do laboratório homologava e auditava tudo para finalmente gerar a publicação.<br><br>Mas tudo isso é só para gerar a seq. dos nucleotídeos em um genoma. Depois tem o trabalho de mapear os genes, para finalmente sabermos para que cada parte do genoma serve. Para isso, existe o GenBank, onde, além das sequências completas de organismos, existem informações sobre DNA, RNA, Proteínas e genes mapeados de vários tipos de organismos(inclusive o humano). E é claro, nem tudo está no GenBank. Nesses casos o processo é totalmente feito no laboratório, através de anos de pesquisa e análise até concluir a função de um determinado gen.<br>
<br>Isso é eu me lembro(bons tempos). Se disse alguma besteira me corrijam.<br><br>Cheers!<br><br><br><br><br><br><br><br> </div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="gmail_quote"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div class="gmail_quote"><div></div><div>[]s,</div><div>Russo</div>
<div><br></div></div><font color="#888888">-- <br></font><div><div></div><div>Alexei Znamensky [russoz_gmail_com] [<a href="http://russoz.wordpress.com" target="_blank">russoz.wordpress.com</a>] [<a href="http://www.flickr.com/photos/alexeiz" target="_blank">www.flickr.com/photos/alexeiz</a>]<br>





&quot;Though we live in trying times, we&#39;re the ones who have to try&quot;<br>
</div></div><br>_______________________________________________<br>
SaoPaulo-pm mailing list<br>
<a href="mailto:SaoPaulo-pm@pm.org" target="_blank">SaoPaulo-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br></blockquote></div><br>
<br>_______________________________________________<br>
SaoPaulo-pm mailing list<br>
<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br></blockquote></div><br><br clear="all"><br>-- <br>André Garcia Carneiro<br>Analista/Desenvolvedor Perl<br>
(11)82907780<br>