[SP-pm] Boas Vindas ao Fabio Navarro

Andre Carneiro andregarciacarneiro at gmail.com
Fri Mar 5 06:02:05 PST 2010


>
>
>> Fábio, fiquei curioso: as sequências de DNA são armazenadas como um
>> arquivo texto, simples? Daí é só rodar uma regex em cima? Ou são usados
>> arquivos DB, gdbm ou algum outro tipo de armazenamento mais específico para
>> esse tipo de sistema?
>>
>>
No meu tempo o formato dos arquivos oficial era o FASTA, e o formato era
assim:


>TAGDASEQ INFORMACAO EXTRA
agctctttcgatc...
>OUTRATAGSEQ INFORMACAO EXTRA
agctctttcgatc...


E assim por diante. No processo de 'shotguns', vc poderia ter milhares, ou
até milhões de repetições de várias partes do genoma, e para organizar isso
era necessário usar um programa que fazia o 'assembly' dessa seq. No meu
tempo era o CAP3 e o Phred/Phrap. Eu usava principalmente um programa para
visualizar a montagem chamado Consed. Mas as vezes eu tinha que trabalhar no
Windows, e nele eu usava o BioEdit, ou algo assim.

Nessas repetições de sequência, cada nucleotídeo (actg) tinha uma 'nota'. O
Consed fazia uma relação entre repetições de nucleotídeos e as notas para
montar uma sequência única no final. Como na metodologia 'shotgun' as
sequências eram muito pequenas, sempre sobravam muitos 'gaps' para resolver.
No meu tempo eu usava o BLAST, capturando sequencias de DNA de diversos
organismos para bater com a sequencia que eu já tinha, na esperança de obter
as sequências faltantes. Esse sistema usa um algoritmo chamado
'Smith-Waterman' para gerar as sobreposições da sequencia que eu enviaria a
ele, com as sequencias que ele pega no GenBank,  e assim eu tinha vários
resultados com várias notas também. Mas essa nota não era para cada
nucleotídeo e sim para as sequencias que ele encontrou, ou se vc preferir, é
uma nota de 'similaridade'.

No lab. que eu trabalhava, trabalhávamos com um erro de no máximo 'E'
elevado a -5. Se fosse maior que isso, descartávamos a sequencia, caso
contrário, baixava o 'FASTA' dessa sequencia, adicionava no meu diretório de
READS(cada arquivo de seq. vc pode considerar como um READ). E gerava a
sobreposição novamente, e o processo continuava até que a sequencia se
completava com uma qualidade significativa.

Depois disso o pessoal do laboratório homologava e auditava tudo para
finalmente gerar a publicação.

Mas tudo isso é só para gerar a seq. dos nucleotídeos em um genoma. Depois
tem o trabalho de mapear os genes, para finalmente sabermos para que cada
parte do genoma serve. Para isso, existe o GenBank, onde, além das
sequências completas de organismos, existem informações sobre DNA, RNA,
Proteínas e genes mapeados de vários tipos de organismos(inclusive o
humano). E é claro, nem tudo está no GenBank. Nesses casos o processo é
totalmente feito no laboratório, através de anos de pesquisa e análise até
concluir a função de um determinado gen.

Isso é eu me lembro(bons tempos). Se disse alguma besteira me corrijam.

Cheers!









> []s,
>> Russo
>>
>> --
>> Alexei Znamensky [russoz_gmail_com] [russoz.wordpress.com] [
>> www.flickr.com/photos/alexeiz]
>> "Though we live in trying times, we're the ones who have to try"
>>
>> _______________________________________________
>> SaoPaulo-pm mailing list
>> SaoPaulo-pm at pm.org
>> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>>
>
>
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm at pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>



-- 
André Garcia Carneiro
Analista/Desenvolvedor Perl
(11)82907780
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20100305/10b199ac/attachment.html>


More information about the SaoPaulo-pm mailing list