[SP-pm] Bioinformática e Sequenciamento [Was: ordenando arquivos.]

Stanislaw Pusep creaktive at gmail.com
Tue Aug 2 13:33:45 PDT 2011


Andre, você está certo, automatizar scrapers a este nível é um tiro no pé...
Mas você errou a causa: garanto que essa abordagem "automática" depende
muito mais de uma "babá" do que o jeito tradicional, pelo simples fato de
estar adentrando o território do desconhecido (quantos "frameworks de
scrapers" existem? e "frameworks de untemplatization"? :)
Bruno, tanto LCS quanto LCSS fazem comparação de 2 em 2, certo? Ao menos,
pela implementação "naive", que monta uma matriz... Já pelo conceito
do Generalised suffix tree, daria para "comparar" 3 ou mais, não?

ABS()



2011/8/1 Bruno Buss <bruno.buss em gmail.com>

> 2011/8/1 Stanislaw Pusep <creaktive em gmail.com>
>
>> Sim, seria um node para cada char, no caso ideal; e, para piorar: não
>> seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça:
>> ao invés de fazer scrappers individuais para os sites, fazer um
>> "destemplatizador", um programa que percorre sites relativamente grandes
>> (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente.
>> Um algoritmo bacana é implementado via Tree::Suffix (
>> http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é
>> impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(
>
>
> Hum... então o que você quer não é o Longest Common Substring, é o Longest
> Common Subsequence então :)
> Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P
>
>
> https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem
>
> [ ]'s
> --
> Bruno C. Buss
> http://brunobuss.wordpress.com/
> http://www.dcc.ufrj.br/~brunobuss/
>
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20110802/f9803215/attachment-0001.html>


More information about the SaoPaulo-pm mailing list