[SP-pm] Comparando parágrafos de texto

Frederico Recsky frederico em gmail.com
Domingo Setembro 23 06:35:16 PDT 2007


Olá

On 9/21/07, loggos em loggos.com.br <loggos em loggos.com.br> wrote:
> Saudações a todos.
> Uma questão teórica, mas muito interessante.
> Tenho um array de 900 posições, que armazena 1 parágrafo de texto (1 linha)
> em cada posição.
> Preciso comparar estes textos entre si para saber quais são semelhantes
> (pois considero que uma diferença de até 3 palavras significa que os textos
> são iguais).
>
> O algoritmo que utilizo sorteia o array e faz as comparações usando regex e
> arrays auxiliares.
>
> A pergunta é: existe um meio mais rápido de rodar este tipo de job ?

mmmm, imagino que um bom comećo era contar todas as palavras e
comparar o resultado, numerico com o do outro texto, isso já da uma
boa margem para analise se vc excluir artigos, pronomes e outras
palavras que são genericas.

Depois comparar sempre é custoso :). Talvez filtrar o texto e deixar
apenas verbos e substantivos da frase, para dai comparar o paragrafo
pode ser uma boa.

Se o texto é muito grande, você pode separar cada paragrafo num fork
(outro processo, no fim são varios de seus programas rodando em
"paralelo"). Hoje em dia os computadores em geral tem "duas threads"
ou mais cores neles.  Multiprocesso é sempre mal explorado nesses
casos :).

Se você tem alguma coisa pronta ai, posta na lista, eu gosto desse
tema posso dar uns pitacos e fazer uns benchmarks :)

-- 
____________________________
Frederico Recsky
Linux User: #253572
http://www.fred.eti.br
http://www.perl.org.br


Mais detalhes sobre a lista de discussão SaoPaulo-pm