[SP-pm] Boas Vindas ao Ramon Vidal

Ramon Vidal ramon.vidal at gmail.com
Fri Mar 5 10:35:18 PST 2010


Basicamente temos dados de projetos de sequenciamento de genomas que são
compostos das quatro letras referentes aos nucleotídeos: A,T,G ou C
dispostos em ordem não-aleatórias. Essas sequencias formam estruturas
gênicas. Os genes são sequencias do DNA que codificam uma proteína (uma
proteína é uma sequência de aminoácidos). Cada sequencia de 3 nucleotídeos
codifica um determinado aminoácido.
Temos 4 nucleotídeos e 20 aminoácidos. Se pegarmos esses 4 aminoácidos e
fizermos todas as combinações possíveis de 3 em tres (códons) teriamos 64
possiveis combinações (4X4X4, ex: ATC, TAC, AAT, CCC, CCA), dessa forma para
o mesmo aminoácido temos mais de um possivel códon que o codifica e já são
todos conhecidos:
http://www.biomania.com.br/bio/imagens/50112/tab.gif (Nessa tabela o U
substitui o nucleotídeo T, já que quando o gene é transcrito em RNA
mensageiro o T-timina é trocado pelo U-uracila).
Para o mecanismo da celula reconhecer a região onde a proteina tem q parar
de ser codificada existem os STOP códons formados pelos códons TAA TAG e
TGA. Ou seja, sempre que aparecer esses nucleotídeos o gene acaba. A maioria
(99,9%) dos genes começa com o aminoácido Metionina codificado pelo códon
ATG


Mas o genoma não é só composto de genes. Entre os genes existem as regiões
intergênicas. Uma aplicação básica da bioinformática é encontrar o maior
numero de genes num determinado genoma. Em organismos mais simples podemos
procurar por genes buscando um ATG e procurando o próximo códon de
terminação. Se essa sequencia for suficientemente longa >200 nucleotídeos
podemos considerar como um gene hipotético. Isso por que nas regiões
intergênicas (que são praticamente aleatórias) temos uma frequencia de 1
stop códon a cada 50 nucleotídeos.

Os genomas estão armazenados em arquivos no formato fasta que é muito
simples, temos uma linha cabeçalho que começa com um sinal de maior ">"
seguido da descrição da sequencia (pode ser qualquer coisa) e abaixo segue a
sequencia de nucleotídeos, abaixo um exemplo:

>sequencia1 bla bla bla
AGCGACTAGCAGCGACTACGAGCATCAGCATCGACATCAGCT
GCATGCTACGACTGAGCATCGACTAGCATCAGTGCACTGATC
CGAGCGACTACGATCAGCATCGACT
>sequencia 2 bla bla bla
GCATCAGCATCGACGTACGATCAGCATGCACTGACATCTAGCGTA
GCATCAGCTACGATCGATGCATGCTGATGCATGCTGTCTTCTCGAT

Então o perl é muito útil para manipular arquivos desse tipo e desenvolver
scripts para procurar padrões (expressões regulares).

Bom, essa é uma das aplicações entre várias. 90% dos programas que os
bioinformatas utilizam são feitos em perl.
Além de buscar genes, existem programas para encontrar sobreposição entre
sequencias, calcular rearranjos, etc etc.
E todos eles usam outputs fáceis de parsear com expressões regulares.







Ramon Vidal

Laboratório de Genômica e Expressão - LGE
Universidade Estadual de Campinas - UNICAMP




2010/3/5 Nelson Ferraz <nferraz em gmail.com>

> 2010/3/4 Ramon Vidal <ramon.vidal em gmail.com>:
> > Opa, falai pessoal, eu trabalho com bioinformática aqui na Unicamp e
> utilizo
> > perl no meu dia a dia para manipulação de sequencias de DNA, proteina
> > contruir pipelines, parsear arquivos, interface com banco de dados mysql
> e o
> > que vier.
>
> Aqui na comunidade tem muito leigo em biologia... você pode nos contar
> um pouco da aplicacão prática de tudo isso? (manipulação de sequencias
> de DNA, etc)
>
> Em que projetos você está envolvido? Qual a importância de Perl na sua
> área?
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm em pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20100305/2fbb4acd/attachment.html>


More information about the SaoPaulo-pm mailing list