[SP-pm] analise de texto
Alceu Rodrigues de Freitas Junior
glasswalk3r at yahoo.com.br
Tue Apr 16 04:41:37 PDT 2013
Tiago,
Um passo à passo vou ficar devendo até porque o assunto é um tanto
complexo e vai depender fortemente do tipo que dados que você vai analisar.
Vale a pena ler um pouco de teoria sobre Naive Bayes (existe muito
material disponível na internet) para que você entenda melhor como
trabalhar com o corpus que for criando.
Basicamente você vai pegar algumas mensagens e vai categorizá-las você
mesmo.
Depois vai passar isto para o AI::Categorizer fazer parsing dessas
mensagens (criando tokens). Por estatística, ele vai entender que uma
mensagem pode ou não fazer parte daquela categoria pelos tokens encontrados.
Depois que o categorizador recebeu este treinamento, você pode passar
para ele outras mensagens e ele vai tentar repetir o processo. Claro que
não é um método determinístico, algumas vezes ele vai errar o "chute".
Você terá que refinar o processo algumas vezes até ter resultados
satisfatórios. Mas é um trabalho contínuo se as mensagens forem mudando.
Uma forma boa de refinar o processo é utilizar "stop words", que
basicamente é dizer para o categorizar o que ele deve ignorar como
tokens. Infelizmente não achei um módulo para fazer isto que utilizasse
palavras em português, mas você sempre pode incluir sua lista.
[]'s
Alceu
Em 14-04-2013 09:24, Tiago Peczenyj escreveu:
> Alceu
>
> Vc podia dar mais detalhes do seu trabalho? Como vc categorizava as
> mensagens, de repente mostrando um passo a passo a partir de algum
> exemplo mais simples... achei isso bem legal!
>
>
> 2013/4/14 Alceu Rodrigues de Freitas Junior <glasswalk3r at yahoo.com.br
> <mailto:glasswalk3r at yahoo.com.br>>
>
> Olá Ricardo,
>
> Eu usei a distro AI::Categorizer
> (http://search.cpan.org/~__kwilliams/AI-Categorizer-0.09/__lib/AI/Categorizer.pm
> <http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer.pm>)
> para categorizar centenas de mensagens de erros diários do
> middleware de integração aonde trabalho atualmente.
>
> O AI::Categorizer tem a interface meio confusa, o POD não ajuda
> muito, mas se você pesquisar em perlmonks.org <http://perlmonks.org>
> você vai encontrar referências interessantes.
>
> Eu usei o algoritmo de Naive Bayes, que é estatístico, mas funciona
> suficientemente bem na maioria dos casos. Você pode querer tentar
> outros.
>
> Dê também uma olhada o projeto Weka
> (http://www.cs.waikato.ac.nz/__ml/weka/
> <http://www.cs.waikato.ac.nz/ml/weka/>), não é Perl mas pode te
> ajudar a decidir mais facilmente que algoritmo usar.
>
> []'s
>
> Em 13-04-2013 18:16, Ricardo Stock escreveu:
>
> Ola para todos.
> gostaria da ajuda da galera para a descoberta de algum
> módulo ou
> caso alguem já tenha trabalhado com analise de texto.
> Alguem poderia me dar alguma dica ou caminho das pedras para
> trabalhar com analise de texto, para dependendo da frase tomar
> determinada ação.
> No aguardo
> Ricardo Stock
> www.stocksistemas.com.br <http://www.stocksistemas.com.br>
> <http://www.stocksistemas.com.__br
> <http://www.stocksistemas.com.br>>
>
>
> =begin disclaimer
> Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
> SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
> <mailto:SaoPaulo-pm at pm.org>
> L<http://mail.pm.org/mailman/__listinfo/saopaulo-pm
> <http://mail.pm.org/mailman/listinfo/saopaulo-pm>>
> =end disclaimer
>
>
> =begin disclaimer
> Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
> SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org <mailto:SaoPaulo-pm at pm.org>
> L<http://mail.pm.org/mailman/__listinfo/saopaulo-pm
> <http://mail.pm.org/mailman/listinfo/saopaulo-pm>>
> =end disclaimer
>
>
>
>
> --
> Tiago B. Peczenyj
> Linux User #405772
>
> http://about.me/peczenyj
>
>
> =begin disclaimer
> Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
> SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
> L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
More information about the SaoPaulo-pm
mailing list