[Cascavel-pm] Comparacao aproximada entre duas strings
Marco Modesto
marcoabmod em gmail.com
Sexta Outubro 14 20:05:14 PDT 2005
Alguem saberia me indicar um modulo ou função pra comparar se duas
strings são próximas?
-> Fazer a função não seria difícil, mas talvez alguém conheça algo pronto.
Por exemplo:
"WIM: an Information Mine Model for the World Wide Web"
"WIM: an Information Mining Model for the Web"
Possuem distância de 0.8. (este valor é apenas ilustrativo).
Mas
"A Practical Minimal Perfect Hashing Method"
"WIM: an Information Mining Model for the Web"
Possuem distância 0, ou seja não há semelhança alguma entre as strings.
Usei o SoftTFIDF em Perl, mas em alguns casos que analisei ele
retornou uma proximidade muito alta a duas strings completamente
diferentes:
SoftTFIDF em Java:
http://secondstring.sourceforge.net/javadoc/com/wcohen/secondstring/SoftTFIDF.html
obrigado,
Marco.
Mais detalhes sobre a lista de discussão Cascavel-pm