[SP-pm] ordenando arquivos.

Andre Carneiro andregarciacarneiro at gmail.com
Wed Jul 27 05:34:13 PDT 2011


Acho que a ordenação nesse caso não é em cima dos arquivos de sequência em
DNA, RNA, mas provavelmente
nas listas de arquivos FASTA e outros formatos. Normalmente são milhares ou
até milhões de arquivos, dependendo do 'bicho', ou da 'salada'...
uhauahauahauaha!!

Por aqui eu acabei implementando uma solução com o Sort::External mas
somente se eu já não tiver a lista de arquivos ordenada por data, como eu
precisava.

Para manter isso, o processo que cuida de gravar esses arquivos, também
mantém um arquivo a parte, que é uma lista com os arquivos que são gravados.
Essa lista segue exatamente a ordem de gravação dos arquivos, portanto a
lista está ordenada pela data. A utilização do Sort::External só ocorre
agora se, e somente se alguma coisa 'ruim' acontecer com essa lista.

A única coisa que eu fiz, foi adicionar o 'stat' do perl nos arquivos que eu
comparo para ordenar e trocar o operador '<=>' para 'cmp' e 'badabim,
badabum!'(Beakman)


<codigo>
       use strict;
       use warnings;
       #definição de variáveis...

       http://pastebin.com/9kwNjgaq
</codigo>


Ainda preciso ver isso em produção. Mas acho que vai servir.

De qualquer forma, valeu pessoal!


Cheers!


2011/7/27 Eden Cardim <edencardim at gmail.com>

> >>>>> "Thiago" == Thiago Yukio Kikuchi Oliveira <stratust at gmail.com>
> writes:
>
>     Thiago> Fazer o 'sort' de arquivos gigantes está sendo o problema da
>    Thiago> bioinformática ultimamente (cada sequencia que eu recebo é
>    Thiago> um arquivo texto com 15GB de informação cada).
>
> Hmm, presumo que você esteja falando de cadeias de DNA/RNA, estou
> curioso pra saber qual a relevância científica de se fazer sort numa
> sequência de DNA já que você vai sempre acabar com algo parecido com
> "AAAAAACCCCCCGGGGGTTTTT".
>
> --
>   Eden Cardim       Need help with your Catalyst or DBIx::Class project?
>  Code Monkey                    http://www.shadowcat.co.uk/catalyst/
>  Shadowcat Systems Ltd.  Want a managed development or deployment platform?
> http://blog.edencardim.com/            http://www.shadowcat.co.uk/servers/
> http://twitter.com/#!/edenc
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>



-- 
André Garcia Carneiro
Analista/Desenvolvedor Perl
(11)82907780
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20110727/96bad85e/attachment.html>


More information about the SaoPaulo-pm mailing list