[SP-pm] analise de texto
Ricardo Stock
ricardostock at bol.com.br
Thu Apr 18 06:27:05 PDT 2013
Utilizando os artigos passados, documentações e dicas eu estou conseguindo iniciar um projeto para classificação de frases. Esta ainda muito cru mas já começa a ter os primeiro resultados. Onde eu criri uma lista de palavras armazenadas no banco.
Um dos maiores problemas que tenho enfrentado é o internetes e claro o proprio portugues. Onde convenhamos ler o que se escreve hoje em dia esta cada vez mais """difissiu""".
Mesmo assim estou criando uma função que consegue ler uma fazer e atribuir um valor a ela sendo 0,1 ou 2 e com isso tomo a ação necessária.... Vamos amadurecer mais a ideia, e depois claro quero mostrar a todos.
Mesmo assim obrigado por todas as dicas e informações, principalmente ao stan e o alceu.
Ricardo Stock
www.stocksistemas.com.br
----- Original Message -----
From: Stanislaw Pusep
To: saopaulo-pm em mail.pm.org
Sent: Thursday, April 18, 2013 10:03 AM
Subject: Re: [SP-pm] analise de texto
Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens customizados. Uma excelente referencia: http://hunch.net/~jl/projects/hash_reps/index.html
ABS()
2013/4/18 Alceu Rodrigues de Freitas Junior <glasswalk3r em yahoo.com.br>
De fato foram ótimas dicas.
Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de uma palavra?
[]'s
Alceu
Em 17-04-2013 12:22, Marcio Ferreira escreveu:
Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e
poupam tempo
https://metacpan.org/module/List::Compare
https://metacpan.org/module/Algorithm::Combinatorics
Esse tipo de trabalho você precisa saber o que quer e ir construindo aos
poucos. E vai pegando essas manhas que o Stan citou.
Recomendo também distribuir o trabalho com
https://metacpan.org/module/Parallel::ForkManager, MAS cuidado!! Saiba
qual ponto distribuir.
O run_on_finish é útil usado com moderação, ele escreve no disco, aí
pode ser um baita gargalo =S.
Use um https://metacpan.org/module/Devel::NYTProf pra saber onde otimizar.
Stan++ #ótimo artigo!
[]s,
Marcio Ferreira
skype: marcio.ferreir4
(21) 8365-7768
2013/4/16 Stanislaw Pusep <creaktive em gmail.com <mailto:creaktive em gmail.com>>
Quanto ao módulo de stopwords em português, existe um, sim:
https://metacpan.org/module/Lingua::StopWords
Outra coisa interessante é aplicar um stemmer:
https://metacpan.org/module/Lingua::Stem::Snowball
Também vale notar uma técnica "ninja": quem disse que token precisa
corresponder a UMA palavra? Usando bi- ou tri-gramas, observei
aumento considerável na precisão da categorização de textos curtos.
Ah, um detalhe importantíssimo: para mensurar o desempenho dos
modelos estatísticos, é comum usar uma "matriz da confusão"
(https://en.wikipedia.org/wiki/Confusion_matrix).
Por fim, existem coisas prontas para análise de texto usando
Hadoop/Mahout: https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html
=begin disclaimer
Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer
------------------------------------------------------------------------------
=begin disclaimer
Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20130418/a01ed9c5/attachment.html>
More information about the SaoPaulo-pm
mailing list