[SP-pm] Conceito para fazer busca[ OFF ]

Luis Motta Campos luismottacampos at yahoo.co.uk
Fri Aug 21 00:01:41 PDT 2009


Nelson Ferraz wrote:
[...]
> Ou seja: o soundex de "faca" e "foca" são iguais; assim como "fato" e
> "fita", "gato" e "gota", "lata" e "luta"; e assim por diante. Imagine
> se a pessoa procurasse por "pata"...
> 
> Em português, um "e" pode ser facilmente confundido com "i"; um "o"
> com "u"; mas raramente alguém confundiria "a" com "u".
> 
> O algoritmo deveria detectar as nuances da língua; em português as
> vogais não podem ser simplesmente ignoradas.
> 
> Infelizmente o BuscaBR parece cometer o mesmo erro.

Nélson, o BuscaBR não comete exatamente os mesmos erros do Soundex, mas
não simplesmente ignora as vogais. Ele apenas não leva em consideração
todas as nuances da língua, como eu esperava inicialmente.

Eu estou aguardando contatos do Solli sobre um doutor em linguística que
ele me falou que conhece, e estou tentando contatar um outro doutor em
linguística através de um outro amigo.

Isso deve resolver o problema de uma maneira elegante -- eu não quero
publicar um Algorítmo Fonético quebrado ou que não ofereça soluções
apropriadas para todo o espaço do problema.

Obrigado pelas dicas, Nélson. Se você tiver mais observações, eu estou
interessado nelas. Estou na fase de estudo do problema, e quanto mais
informação, melhor.

Putamplexos
-- 
Luis Motta Campos is a software engineer,
Perl Programmer, foodie and photographer.


More information about the SaoPaulo-pm mailing list