[SP-pm] Conceito para fazer busca[ OFF ]

jimmy jimmy.tty at gmail.com
Thu Aug 13 06:39:55 PDT 2009


On Thu, Aug 13, 2009 at 03:27:52PM +0200, Nelson Ferraz wrote:
> 2009/8/13 João Gabriel Casteluber Laass <gabriel em joaogabriel.org>:
> > 2009/8/12 Nilson Santos Figueiredo Jr. <acid06 em gmail.com>:
> >> O algoritmo funciona mais ou menos assim: ele tenta trocar letras
> >> consecutivas (ab => ba), realizar inserções de uma letra (aa => aba),
> >> realizar remoções de uma letra (aba => aa), trocar letras por outras
> >> não presentes (aba => aca) e provavelmente mais algumas operações mais
> >> especializadas. Ele realiza essas substituições diversas vezes até
> >> achar um bom resultado.
> >
> > Existe uma "jogada" que você compara duas palavras e ve a porcentagem
> > de semelhança entre elas. Esse não seria um caminho mais rápido?
> 
> Como você define a semelhanca?
> 
> "estádio" e "estúdio" têm apenas uma letra de diferenca, mas
> dificilmente alguém confundiria as duas palavras.
> 
> "eminente" e "iminente" também têm apenas uma letra de diferenca, mas
> são muito mais sujeitas a confusão.
> 
> O algoritmo de comparacao não deve levar em conta a "porcentagem de
> semelhanca", mas a "qualidade da semelhanca".
> 
> "E" e "I" são dois sons parecidos em português. "A" e "U" não. Em
> compensacão, "O" e "U" podem ser confundidos:
> 
> Comprimento  extensão
> Cumprimento  saudação
> 
> Em alguns casos até mesmo o "L" e o "R" podem ser trocados por engano:
> 
> Flagrante  evidente
> Fragrante  perfumado
> 
> Um outro exemplo interessante é:
> 
> Estádio  praça de esporte
> Estágio  aprendizado
> 
> (Algumas regiões do Brasil pronunciam "dio" como "djo", daí que a
> confusão é possível ;))
> 
> Portanto, o algoritmo deve necessariamente levar em conta a linguagem.
> 
> []s
> 
> Nelson
> _______________________________________________


há algum tempo atrás me passaram esse link:

http://www.unibratec.com.br/jornadacientifica/diretorio/NOVOB.pdf

tentei seguir o algoritmo proposto mas não consegui chegar aos mesmos
resultados do documento.

talvez agregue algo a discussão.

-- 
"Não manejo bem as palavras
Mas manipulo bem as strings."
------------------------------


More information about the SaoPaulo-pm mailing list