Andre, você está certo, automatizar scrapers a este nível é um tiro no pé... Mas você errou a causa: garanto que essa abordagem "automática" depende muito mais de uma "babá" do que o jeito tradicional, pelo simples fato de estar adentrando o território do desconhecido (quantos "frameworks de scrapers" existem? e "frameworks de untemplatization"? :)<br clear="all">


Bruno, tanto LCS quanto LCSS fazem comparação de 2 em 2, certo? Ao menos, pela implementação "naive", que monta uma matriz... Já pelo conceito do Generalised suffix tree, daria para "comparar" 3 ou mais, não?<div>


<br>ABS()<br><br>

<br><br><div class="gmail_quote">2011/8/1 Bruno Buss <span dir="ltr"><<a href="mailto:bruno.buss@gmail.com">bruno.buss@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">


<div class="gmail_quote"><div class="im">2011/8/1 Stanislaw Pusep <span dir="ltr"><<a href="mailto:creaktive@gmail.com" target="_blank">creaktive@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Sim, seria um node para cada char, no caso ideal; e, para piorar: não seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça: ao invés de fazer scrappers individuais para os sites, fazer um "destemplatizador", um programa que percorre sites relativamente grandes (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente. Um algoritmo bacana é implementado via Tree::Suffix (<a href="http://en.wikipedia.org/wiki/Longest_common_substring_problem" target="_blank">http://en.wikipedia.org/wiki/Longest_common_substring_problem</a>), mas é impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(</blockquote>


<div><br></div></div><div>Hum... então o que você quer não é o Longest Common Substring, é o Longest Common Subsequence então :)</div><div>Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P</div><div><br>


</div>

<div>

<a href="https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem" target="_blank">https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem</a></div>


<div><br></div><div>[ ]'s </div></div><div><div></div><div class="h5">-- <br>Bruno C. Buss<br><a href="http://brunobuss.wordpress.com/" target="_blank">http://brunobuss.wordpress.com/</a><br><a href="http://www.dcc.ufrj.br/~brunobuss/" target="_blank">http://www.dcc.ufrj.br/~brunobuss/</a><br>


</div></div><br>=begin disclaimer<br>

   Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>

 SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>

 L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a>><br>

=end disclaimer<br>

<br></blockquote></div><br></div>