[SP-pm] analise de texto

Stanislaw Pusep creaktive at gmail.com
Thu Apr 18 06:03:59 PDT 2013


Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra:
pre-processar o documento e representá-lo com hashes de seus tokens
customizados. Uma excelente referencia:
http://hunch.net/~jl/projects/hash_reps/index.html


ABS()


2013/4/18 Alceu Rodrigues de Freitas Junior <glasswalk3r em yahoo.com.br>

> De fato foram ótimas dicas.
>
> Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar
> como tokens mais de uma palavra?
>
> []'s
> Alceu
>
> Em 17-04-2013 12:22, Marcio Ferreira escreveu:
>
>> Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e
>> poupam tempo
>> https://metacpan.org/module/**List::Compare<https://metacpan.org/module/List::Compare>
>> https://metacpan.org/module/**Algorithm::Combinatorics<https://metacpan.org/module/Algorithm::Combinatorics>
>>
>> Esse tipo de trabalho você precisa saber o que quer e ir construindo aos
>> poucos. E vai pegando essas manhas que o Stan citou.
>>
>> Recomendo também distribuir o trabalho com
>> https://metacpan.org/module/**Parallel::ForkManager<https://metacpan.org/module/Parallel::ForkManager>,
>> MAS cuidado!! Saiba
>> qual ponto distribuir.
>> O run_on_finish é útil usado com moderação, ele escreve no disco, aí
>> pode ser um baita gargalo =S.
>>
>> Use um https://metacpan.org/module/**Devel::NYTProf<https://metacpan.org/module/Devel::NYTProf>pra saber onde otimizar.
>>
>> Stan++ #ótimo artigo!
>>
>>
>> []s,
>>
>> Marcio Ferreira
>> skype: marcio.ferreir4
>> (21) 8365-7768
>>
>>
>> 2013/4/16 Stanislaw Pusep <creaktive em gmail.com <mailto:
>> creaktive em gmail.com>>
>>
>>
>>     Quanto ao módulo de stopwords em português, existe um, sim:
>>     https://metacpan.org/module/**Lingua::StopWords<https://metacpan.org/module/Lingua::StopWords>
>>     Outra coisa interessante é aplicar um stemmer:
>>     https://metacpan.org/module/**Lingua::Stem::Snowball<https://metacpan.org/module/Lingua::Stem::Snowball>
>>     Também vale notar uma técnica "ninja": quem disse que token precisa
>>     corresponder a UMA palavra? Usando bi- ou tri-gramas, observei
>>     aumento considerável na precisão da categorização de textos curtos.
>>     Ah, um detalhe importantíssimo: para mensurar o desempenho dos
>>     modelos estatísticos, é comum usar uma "matriz da confusão"
>>     (https://en.wikipedia.org/**wiki/Confusion_matrix<https://en.wikipedia.org/wiki/Confusion_matrix>
>> ).
>>     Por fim, existem coisas prontas para análise de texto usando
>>     Hadoop/Mahout: https://cwiki.apache.org/**
>> MAHOUT/twenty-newsgroups.html<https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html>
>>
>
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
> SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
> L<http://mail.pm.org/mailman/**listinfo/saopaulo-pm<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> >
> =end disclaimer
>
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20130418/dd9a44fa/attachment.html>


More information about the SaoPaulo-pm mailing list