<div dir="ltr">Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens customizados. Uma excelente referencia: <a href="http://hunch.net/~jl/projects/hash_reps/index.html">http://hunch.net/~jl/projects/hash_reps/index.html</a></div>

<div class="gmail_extra"><br clear="all"><div><br>ABS()<br></div>
<br><br><div class="gmail_quote">2013/4/18 Alceu Rodrigues de Freitas Junior <span dir="ltr"><<a href="mailto:glasswalk3r@yahoo.com.br" target="_blank">glasswalk3r@yahoo.com.br</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

De fato foram ótimas dicas.<br>
<br>
Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de uma palavra?<br>
<br>
[]'s<br>
Alceu<br>
<br>
Em 17-04-2013 12:22, Marcio Ferreira escreveu:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">
Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e<br>
poupam tempo<br>
<a href="https://metacpan.org/module/List::Compare" target="_blank">https://metacpan.org/module/<u></u>List::Compare</a><br>
<a href="https://metacpan.org/module/Algorithm::Combinatorics" target="_blank">https://metacpan.org/module/<u></u>Algorithm::Combinatorics</a><br>
<br>
Esse tipo de trabalho você precisa saber o que quer e ir construindo aos<br>
poucos. E vai pegando essas manhas que o Stan citou.<br>
<br>
Recomendo também distribuir o trabalho com<br>
<a href="https://metacpan.org/module/Parallel::ForkManager" target="_blank">https://metacpan.org/module/<u></u>Parallel::ForkManager</a>, MAS cuidado!! Saiba<br>
qual ponto distribuir.<br>
O run_on_finish é útil usado com moderação, ele escreve no disco, aí<br>
pode ser um baita gargalo =S.<br>
<br>
Use um <a href="https://metacpan.org/module/Devel::NYTProf" target="_blank">https://metacpan.org/module/<u></u>Devel::NYTProf</a> pra saber onde otimizar.<br>
<br>
Stan++ #ótimo artigo!<br>
<br>
<br>
[]s,<br>
<br>
Marcio Ferreira<br>
skype: marcio.ferreir4<br>
<a href="tel:%2821%29%208365-7768" value="+552183657768" target="_blank">(21) 8365-7768</a><br>
<br>
<br></div>
2013/4/16 Stanislaw Pusep <<a href="mailto:creaktive@gmail.com" target="_blank">creaktive@gmail.com</a> <mailto:<a href="mailto:creaktive@gmail.com" target="_blank">creaktive@gmail.com</a>>><div class="im"><br>


<br>
    Quanto ao módulo de stopwords em português, existe um, sim:<br>
    <a href="https://metacpan.org/module/Lingua::StopWords" target="_blank">https://metacpan.org/module/<u></u>Lingua::StopWords</a><br>
    Outra coisa interessante é aplicar um stemmer:<br>
    <a href="https://metacpan.org/module/Lingua::Stem::Snowball" target="_blank">https://metacpan.org/module/<u></u>Lingua::Stem::Snowball</a><br>
    Também vale notar uma técnica "ninja": quem disse que token precisa<br>
    corresponder a UMA palavra? Usando bi- ou tri-gramas, observei<br>
    aumento considerável na precisão da categorização de textos curtos.<br>
    Ah, um detalhe importantíssimo: para mensurar o desempenho dos<br>
    modelos estatísticos, é comum usar uma "matriz da confusão"<br>
    (<a href="https://en.wikipedia.org/wiki/Confusion_matrix" target="_blank">https://en.wikipedia.org/<u></u>wiki/Confusion_matrix</a>).<br>
    Por fim, existem coisas prontas para análise de texto usando<br>
    Hadoop/Mahout: <a href="https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html" target="_blank">https://cwiki.apache.org/<u></u>MAHOUT/twenty-newsgroups.html</a><br>
</div></blockquote>
<br><div class="HOEnZb"><div class="h5">
=begin disclaimer<br>
  Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>
SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org" target="_blank">SaoPaulo-pm@pm.org</a><br>
L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/<u></u>listinfo/saopaulo-pm</a>><br>
=end disclaimer<br>
</div></div></blockquote></div><br></div>