[Cascavel-pm] Comparando parágrafos de texto

Solli Honorio shonorio em gmail.com
Sábado Setembro 22 03:29:09 PDT 2007


On 9/21/07, loggos em loggos.com.br <loggos em loggos.com.br> wrote:
>
>  Saudações a todos.
> Uma questão teórica, mas muito interessante.
> Tenho um array de 900 posições, que armazena 1 parágrafo de texto (1
> linha) em cada posição.
> Preciso comparar estes textos entre si para saber quais são semelhantes
> (pois considero que uma diferença de até 3 palavras significa que os textos
> são iguais).
>

Isto parece coisa de professor  tentando  pegar  plágio de aluno nos
trabalhos.

O algoritmo que utilizo sorteia o array e faz as comparações usando regex e
> arrays auxiliares.
>
> A pergunta é: existe um meio mais rápido de rodar este tipo de job ?
>

Num sei, porquê não sei o quanto rápido o teu sistema está lento ! Existe
sim várias maneiras, o MDA lhe passou uma. Você então comparar o método do
MDA com o teu via Benchmark, ou senão comprar com módulos de aproximação no
CPAN tipo :
http://cpan.uwinnipeg.ca/htdocs/Algorithm-Diff/Algorithm/Diff.html,
http://cpan.uwinnipeg.ca/htdocs/String-Similarity/String/Similarity.htmlentre
outros.

Fiz uma pesquisa sobre Hashes e , segundo alguns autores, eles são mais
> lentos (internamente ao PERL).
>

Sim, é verdade que o armazenamento e a recuperação de informações em hashes
custão mais do que em array, por motivos da própria concepção deste tipo de
variável.

Mas também é verdade que existe outras coisas que podem influênciar
negativamente a performance da aplicação. Para saber onde exatamente está o
problema, eu recomendo fortemente você utilizar as ferramentas do Devel::*,
tipo http://cpan.uwinnipeg.ca/htdocs/DProf/Devel/DProf.html,
http://cpan.uwinnipeg.ca/htdocs/Devel-DProfLB/Devel/DProfLB.html,
http://cpan.uwinnipeg.ca/htdocs/GraphViz/Devel/GraphVizProf.html entre
vários outros disponível no cpan mais próximo de você :)

Atualmente estou estudando Pack/Unpack.
>
> Então, o uso de arrays com regex seria o recurso mais veloz ?
>

Use o benchmark e depois nos conte o resultado :)

Abraço a todos.
> Roberto
>
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm em pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>
>


-- 
"o animal satisfeito dorme". - Guimarães Rosa
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: http://mail.pm.org/pipermail/cascavel-pm/attachments/20070922/15244aae/attachment.html 


Mais detalhes sobre a lista de discussão Cascavel-pm