[SP-pm] analise de texto

Alceu Rodrigues de Freitas Junior glasswalk3r at yahoo.com.br
Thu Apr 18 05:25:30 PDT 2013


De fato foram ótimas dicas.

Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar 
como tokens mais de uma palavra?

[]'s
Alceu

Em 17-04-2013 12:22, Marcio Ferreira escreveu:
> Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e
> poupam tempo
> https://metacpan.org/module/List::Compare
> https://metacpan.org/module/Algorithm::Combinatorics
>
> Esse tipo de trabalho você precisa saber o que quer e ir construindo aos
> poucos. E vai pegando essas manhas que o Stan citou.
>
> Recomendo também distribuir o trabalho com
> https://metacpan.org/module/Parallel::ForkManager, MAS cuidado!! Saiba
> qual ponto distribuir.
> O run_on_finish é útil usado com moderação, ele escreve no disco, aí
> pode ser um baita gargalo =S.
>
> Use um https://metacpan.org/module/Devel::NYTProf pra saber onde otimizar.
>
> Stan++ #ótimo artigo!
>
>
> []s,
>
> Marcio Ferreira
> skype: marcio.ferreir4
> (21) 8365-7768
>
>
> 2013/4/16 Stanislaw Pusep <creaktive at gmail.com <mailto:creaktive at gmail.com>>
>
>     Quanto ao módulo de stopwords em português, existe um, sim:
>     https://metacpan.org/module/Lingua::StopWords
>     Outra coisa interessante é aplicar um stemmer:
>     https://metacpan.org/module/Lingua::Stem::Snowball
>     Também vale notar uma técnica "ninja": quem disse que token precisa
>     corresponder a UMA palavra? Usando bi- ou tri-gramas, observei
>     aumento considerável na precisão da categorização de textos curtos.
>     Ah, um detalhe importantíssimo: para mensurar o desempenho dos
>     modelos estatísticos, é comum usar uma "matriz da confusão"
>     (https://en.wikipedia.org/wiki/Confusion_matrix).
>     Por fim, existem coisas prontas para análise de texto usando
>     Hadoop/Mahout: https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html



More information about the SaoPaulo-pm mailing list