<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META content="text/html; charset=utf-8" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.6001.18702">
<STYLE></STYLE>
</HEAD>
<BODY bgColor=#ffffff>
<DIV><FONT size=2 face=Arial>Utilizando os artigos passados, documentações e 
dicas eu estou conseguindo iniciar um projeto para classificação de frases. Esta 
ainda muito cru mas já começa a ter os primeiro resultados. Onde eu criri uma 
lista de palavras armazenadas no banco.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Um dos maiores problemas que tenho enfrentado é o 
internetes e claro o proprio portugues. Onde convenhamos ler o que se escreve 
hoje em dia esta cada vez mais """difissiu""".</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Mesmo assim estou criando uma função que consegue 
ler uma fazer e atribuir um valor a ela sendo 0,1 ou 2 e com isso tomo a ação 
necessária.... Vamos amadurecer mais a ideia, e depois claro quero mostrar a 
todos.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Mesmo assim obrigado por todas as dicas e 
informações, principalmente ao stan e o alceu.</FONT></DIV>
<DIV> </DIV>
<DIV>Ricardo Stock<BR><A 
href="http://www.stocksistemas.com.br">www.stocksistemas.com.br</A></DIV>
<BLOCKQUOTE 
style="BORDER-LEFT: #000000 2px solid; PADDING-LEFT: 5px; PADDING-RIGHT: 0px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 0px">
  <DIV style="FONT: 10pt arial">----- Original Message ----- </DIV>
  <DIV 
  style="FONT: 10pt arial; BACKGROUND: #e4e4e4; font-color: black"><B>From:</B> 
  <A title=creaktive@gmail.com href="mailto:creaktive@gmail.com">Stanislaw 
  Pusep</A> </DIV>
  <DIV style="FONT: 10pt arial"><B>To:</B> <A title=saopaulo-pm@mail.pm.org 
  href="mailto:saopaulo-pm@mail.pm.org">saopaulo-pm@mail.pm.org</A> </DIV>
  <DIV style="FONT: 10pt arial"><B>Sent:</B> Thursday, April 18, 2013 10:03 
  AM</DIV>
  <DIV style="FONT: 10pt arial"><B>Subject:</B> Re: [SP-pm] analise de 
  texto</DIV>
  <DIV><BR></DIV>
  <DIV dir=ltr>Não dá: ele é high-level demais. O que pode ser feito é uma 
  gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens 
  customizados. Uma excelente referencia: <A 
  href="http://hunch.net/~jl/projects/hash_reps/index.html">http://hunch.net/~jl/projects/hash_reps/index.html</A></DIV>
  <DIV class=gmail_extra><BR clear=all>
  <DIV><BR>ABS()<BR></DIV><BR><BR>
  <DIV class=gmail_quote>2013/4/18 Alceu Rodrigues de Freitas Junior <SPAN 
  dir=ltr><<A href="mailto:glasswalk3r@yahoo.com.br" 
  target=_blank>glasswalk3r@yahoo.com.br</A>></SPAN><BR>
  <BLOCKQUOTE 
  style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" 
  class=gmail_quote>De fato foram ótimas dicas.<BR><BR>Só fiquei com uma 
    dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de 
    uma palavra?<BR><BR>[]'s<BR>Alceu<BR><BR>Em 17-04-2013 12:22, Marcio 
    Ferreira escreveu:<BR>
    <BLOCKQUOTE 
    style="BORDER-LEFT: #ccc 1px solid; MARGIN: 0px 0px 0px 0.8ex; PADDING-LEFT: 1ex" 
    class=gmail_quote>
      <DIV class=im>Falando ainda de matrix e comparações, 2 módulos que me 
      ajudam muito e<BR>poupam tempo<BR><A 
      href="https://metacpan.org/module/List::Compare" 
      target=_blank>https://metacpan.org/module/<U></U>List::Compare</A><BR><A 
      href="https://metacpan.org/module/Algorithm::Combinatorics" 
      target=_blank>https://metacpan.org/module/<U></U>Algorithm::Combinatorics</A><BR><BR>Esse 
      tipo de trabalho você precisa saber o que quer e ir construindo 
      aos<BR>poucos. E vai pegando essas manhas que o Stan 
      citou.<BR><BR>Recomendo também distribuir o trabalho com<BR><A 
      href="https://metacpan.org/module/Parallel::ForkManager" 
      target=_blank>https://metacpan.org/module/<U></U>Parallel::ForkManager</A>, 
      MAS cuidado!! Saiba<BR>qual ponto distribuir.<BR>O run_on_finish é útil 
      usado com moderação, ele escreve no disco, aí<BR>pode ser um baita gargalo 
      =S.<BR><BR>Use um <A href="https://metacpan.org/module/Devel::NYTProf" 
      target=_blank>https://metacpan.org/module/<U></U>Devel::NYTProf</A> pra 
      saber onde otimizar.<BR><BR>Stan++ #ótimo 
      artigo!<BR><BR><BR>[]s,<BR><BR>Marcio Ferreira<BR>skype: 
      marcio.ferreir4<BR><A href="tel:%2821%29%208365-7768" target=_blank 
      value="+552183657768">(21) 8365-7768</A><BR><BR><BR></DIV>2013/4/16 
      Stanislaw Pusep <<A href="mailto:creaktive@gmail.com" 
      target=_blank>creaktive@gmail.com</A> <mailto:<A 
      href="mailto:creaktive@gmail.com" 
      target=_blank>creaktive@gmail.com</A>>>
      <DIV class=im><BR><BR>    Quanto ao módulo de stopwords em 
      português, existe um, sim:<BR>    <A 
      href="https://metacpan.org/module/Lingua::StopWords" 
      target=_blank>https://metacpan.org/module/<U></U>Lingua::StopWords</A><BR>  
        Outra coisa interessante é aplicar um stemmer:<BR>    <A 
      href="https://metacpan.org/module/Lingua::Stem::Snowball" 
      target=_blank>https://metacpan.org/module/<U></U>Lingua::Stem::Snowball</A><BR>  
        Também vale notar uma técnica "ninja": quem disse que token 
      precisa<BR>    corresponder a UMA palavra? Usando bi- ou 
      tri-gramas, observei<BR>    aumento considerável na precisão da 
      categorização de textos curtos.<BR>    Ah, um detalhe 
      importantíssimo: para mensurar o desempenho dos<BR>    modelos 
      estatísticos, é comum usar uma "matriz da confusão"<BR>    (<A 
      href="https://en.wikipedia.org/wiki/Confusion_matrix" 
      target=_blank>https://en.wikipedia.org/<U></U>wiki/Confusion_matrix</A>).<BR>  
        Por fim, existem coisas prontas para análise de texto 
      usando<BR>    Hadoop/Mahout: <A 
      href="https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html" 
      target=_blank>https://cwiki.apache.org/<U></U>MAHOUT/twenty-newsgroups.html</A><BR></DIV></BLOCKQUOTE><BR>
    <DIV class=HOEnZb>
    <DIV class=h5>=begin disclaimer<BR>  Sao Paulo Perl Mongers: <A 
    href="http://sao-paulo.pm.org/" 
    target=_blank>http://sao-paulo.pm.org/</A><BR>SaoPaulo-pm mailing list: <A 
    href="mailto:SaoPaulo-pm@pm.org" 
    target=_blank>SaoPaulo-pm@pm.org</A><BR>L<<A 
    href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" 
    target=_blank>http://mail.pm.org/mailman/<U></U>listinfo/saopaulo-pm</A>><BR>=end 
    disclaimer<BR></DIV></DIV></BLOCKQUOTE></DIV><BR></DIV>
  <P>
  <HR>

  <P></P>=begin disclaimer<BR>   Sao Paulo Perl Mongers: 
  http://sao-paulo.pm.org/<BR> SaoPaulo-pm mailing list: 
  SaoPaulo-pm@pm.org<BR> L<http://mail.pm.org/mailman/listinfo/saopaulo-pm><BR>=end 
  disclaimer<BR></BLOCKQUOTE></BODY></HTML>