<div class="gmail_quote">2011/8/1 Stanislaw Pusep <span dir="ltr"><<a href="mailto:creaktive@gmail.com">creaktive@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">


Sim, seria um node para cada char, no caso ideal; e, para piorar: não seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça: ao invés de fazer scrappers individuais para os sites, fazer um "destemplatizador", um programa que percorre sites relativamente grandes (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente. Um algoritmo bacana é implementado via Tree::Suffix (<a href="http://en.wikipedia.org/wiki/Longest_common_substring_problem" target="_blank">http://en.wikipedia.org/wiki/Longest_common_substring_problem</a>), mas é impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(</blockquote>


<div><br></div><div>Hum... então o que você quer não é o Longest Common Substring, é o Longest Common Subsequence então :)</div><div>Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P</div><div><br></div>

<div>

<meta http-equiv="content-type" content="text/html; charset=utf-8"><a href="https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem">https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem</a></div>


<div><br></div><div>[ ]'s </div></div>-- <br>Bruno C. Buss<br><a href="http://brunobuss.wordpress.com/">http://brunobuss.wordpress.com/</a><br><a href="http://www.dcc.ufrj.br/~brunobuss/">http://www.dcc.ufrj.br/~brunobuss/</a><br>