[SP-pm] Bioinformática e Sequenciamento [Was: ordenando arquivos.]

Bruno Buss bruno.buss at gmail.com
Mon Aug 1 12:55:28 PDT 2011


2011/8/1 Stanislaw Pusep <creaktive at gmail.com>

> Sim, seria um node para cada char, no caso ideal; e, para piorar: não
> seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça:
> ao invés de fazer scrappers individuais para os sites, fazer um
> "destemplatizador", um programa que percorre sites relativamente grandes
> (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente.
> Um algoritmo bacana é implementado via Tree::Suffix (
> http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é
> impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(


Hum... então o que você quer não é o Longest Common Substring, é o Longest
Common Subsequence então :)
Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P

https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem

[ ]'s
-- 
Bruno C. Buss
http://brunobuss.wordpress.com/
http://www.dcc.ufrj.br/~brunobuss/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20110801/14b5c264/attachment.html>


More information about the SaoPaulo-pm mailing list