<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META content="text/html; charset=utf-8" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.6001.18702">
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>
<DIV><FONT size=2 face=Arial>Utilizando os artigos passados, documentações e
dicas eu estou conseguindo iniciar um projeto para classificação de frases. Esta
ainda muito cru mas já começa a ter os primeiro resultados. Onde eu criri uma
lista de palavras armazenadas no banco.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Um dos maiores problemas que tenho enfrentado é o
internetes e claro o proprio portugues. Onde convenhamos ler o que se escreve
hoje em dia esta cada vez mais """difissiu""".</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Mesmo assim estou criando uma função que consegue
ler uma fazer e atribuir um valor a ela sendo 0,1 ou 2 e com isso tomo a ação
necessária.... Vamos amadurecer mais a ideia, e depois claro quero mostrar a
todos.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Mesmo assim obrigado por todas as dicas e
informações, principalmente ao stan e o alceu.</FONT></DIV>
<DIV> </DIV>
<DIV>Ricardo Stock<BR><A
href="http://www.stocksistemas.com.br">www.stocksistemas.com.br</A></DIV>
<BLOCKQUOTE
style="BORDER-LEFT: #000000 2px solid; PADDING-LEFT: 5px; PADDING-RIGHT: 0px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">
<DIV style="FONT: 10pt arial">----- Original Message ----- </DIV>
<DIV
style="FONT: 10pt arial; BACKGROUND: #e4e4e4; font-color: black"><B>From:</B>
<A title=creaktive@gmail.com href="mailto:creaktive@gmail.com">Stanislaw
Pusep</A> </DIV>
<DIV style="FONT: 10pt arial"><B>To:</B> <A title=saopaulo-pm@mail.pm.org
href="mailto:saopaulo-pm@mail.pm.org">saopaulo-pm@mail.pm.org</A> </DIV>
<DIV style="FONT: 10pt arial"><B>Sent:</B> Thursday, April 18, 2013 10:03
AM</DIV>
<DIV style="FONT: 10pt arial"><B>Subject:</B> Re: [SP-pm] analise de
texto</DIV>
<DIV><BR></DIV>
<DIV dir=ltr>Não dá: ele é high-level demais. O que pode ser feito é uma
gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens
customizados. Uma excelente referencia: <A
href="http://hunch.net/~jl/projects/hash_reps/index.html">http://hunch.net/~jl/projects/hash_reps/index.html</A></DIV>
<DIV class=gmail_extra><BR clear=all>
<DIV><BR>ABS()<BR></DIV><BR><BR>
<DIV class=gmail_quote>2013/4/18 Alceu Rodrigues de Freitas Junior <SPAN
dir=ltr><<A href="mailto:glasswalk3r@yahoo.com.br"
target=_blank>glasswalk3r@yahoo.com.br</A>></SPAN><BR>
<BLOCKQUOTE
style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex"
class=gmail_quote>De fato foram ótimas dicas.<BR><BR>Só fiquei com uma
dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de
uma palavra?<BR><BR>[]'s<BR>Alceu<BR><BR>Em 17-04-2013 12:22, Marcio
Ferreira escreveu:<BR>
<BLOCKQUOTE
style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex"
class=gmail_quote>
<DIV class=im>Falando ainda de matrix e comparações, 2 módulos que me
ajudam muito e<BR>poupam tempo<BR><A
href="https://metacpan.org/module/List::Compare"
target=_blank>https://metacpan.org/module/<U></U>List::Compare</A><BR><A
href="https://metacpan.org/module/Algorithm::Combinatorics"
target=_blank>https://metacpan.org/module/<U></U>Algorithm::Combinatorics</A><BR><BR>Esse
tipo de trabalho você precisa saber o que quer e ir construindo
aos<BR>poucos. E vai pegando essas manhas que o Stan
citou.<BR><BR>Recomendo também distribuir o trabalho com<BR><A
href="https://metacpan.org/module/Parallel::ForkManager"
target=_blank>https://metacpan.org/module/<U></U>Parallel::ForkManager</A>,
MAS cuidado!! Saiba<BR>qual ponto distribuir.<BR>O run_on_finish é útil
usado com moderação, ele escreve no disco, aí<BR>pode ser um baita gargalo
=S.<BR><BR>Use um <A href="https://metacpan.org/module/Devel::NYTProf"
target=_blank>https://metacpan.org/module/<U></U>Devel::NYTProf</A> pra
saber onde otimizar.<BR><BR>Stan++ #ótimo
artigo!<BR><BR><BR>[]s,<BR><BR>Marcio Ferreira<BR>skype:
marcio.ferreir4<BR><A href="tel:%2821%29%208365-7768" target=_blank
value="+552183657768">(21) 8365-7768</A><BR><BR><BR></DIV>2013/4/16
Stanislaw Pusep <<A href="mailto:creaktive@gmail.com"
target=_blank>creaktive@gmail.com</A> <mailto:<A
href="mailto:creaktive@gmail.com"
target=_blank>creaktive@gmail.com</A>>>
<DIV class=im><BR><BR> Quanto ao módulo de stopwords em
português, existe um, sim:<BR> <A
href="https://metacpan.org/module/Lingua::StopWords"
target=_blank>https://metacpan.org/module/<U></U>Lingua::StopWords</A><BR>
Outra coisa interessante é aplicar um stemmer:<BR> <A
href="https://metacpan.org/module/Lingua::Stem::Snowball"
target=_blank>https://metacpan.org/module/<U></U>Lingua::Stem::Snowball</A><BR>
Também vale notar uma técnica "ninja": quem disse que token
precisa<BR> corresponder a UMA palavra? Usando bi- ou
tri-gramas, observei<BR> aumento considerável na precisão da
categorização de textos curtos.<BR> Ah, um detalhe
importantíssimo: para mensurar o desempenho dos<BR> modelos
estatísticos, é comum usar uma "matriz da confusão"<BR> (<A
href="https://en.wikipedia.org/wiki/Confusion_matrix"
target=_blank>https://en.wikipedia.org/<U></U>wiki/Confusion_matrix</A>).<BR>
Por fim, existem coisas prontas para análise de texto
usando<BR> Hadoop/Mahout: <A
href="https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html"
target=_blank>https://cwiki.apache.org/<U></U>MAHOUT/twenty-newsgroups.html</A><BR></DIV></BLOCKQUOTE><BR>
<DIV class=HOEnZb>
<DIV class=h5>=begin disclaimer<BR> Sao Paulo Perl Mongers: <A
href="http://sao-paulo.pm.org/"
target=_blank>http://sao-paulo.pm.org/</A><BR>SaoPaulo-pm mailing list: <A
href="mailto:SaoPaulo-pm@pm.org"
target=_blank>SaoPaulo-pm@pm.org</A><BR>L<<A
href="http://mail.pm.org/mailman/listinfo/saopaulo-pm"
target=_blank>http://mail.pm.org/mailman/<U></U>listinfo/saopaulo-pm</A>><BR>=end
disclaimer<BR></DIV></DIV></BLOCKQUOTE></DIV><BR></DIV>
<P>
<HR>
<P></P>=begin disclaimer<BR> Sao Paulo Perl Mongers:
http://sao-paulo.pm.org/<BR> SaoPaulo-pm mailing list:
SaoPaulo-pm@pm.org<BR> L<http://mail.pm.org/mailman/listinfo/saopaulo-pm><BR>=end
disclaimer<BR></BLOCKQUOTE></BODY></HTML>