[Cascavel-pm] Comparacao aproximada entre duas strings

Marco Modesto marcoabmod em gmail.com
Sexta Outubro 14 20:05:14 PDT 2005


Alguem saberia me indicar um modulo ou função pra comparar se duas
strings são próximas?
-> Fazer a função não seria difícil, mas talvez alguém conheça algo pronto.

Por exemplo:
"WIM: an Information Mine Model for the World Wide Web"
"WIM: an Information Mining Model for the Web"
Possuem distância de 0.8.  (este valor é apenas ilustrativo).

Mas
"A Practical Minimal Perfect Hashing Method"
"WIM: an Information Mining Model for the Web"
Possuem distância 0, ou seja não há semelhança alguma entre as strings.

Usei o SoftTFIDF em Perl, mas em alguns casos que analisei ele
retornou uma proximidade muito alta a duas strings completamente
diferentes:

SoftTFIDF em Java:
http://secondstring.sourceforge.net/javadoc/com/wcohen/secondstring/SoftTFIDF.html


obrigado,

Marco.


Mais detalhes sobre a lista de discussão Cascavel-pm