[SP-pm] analise de texto
Alceu Rodrigues de Freitas Junior
glasswalk3r at yahoo.com.br
Tue May 7 05:02:38 PDT 2013
Olá Stanislaw,
Eu li seu artigo em https://gist.github.com/creaktive/1924499 e achei
bastante didático, principalmente sobre a parte estatística.
No entanto, eu devo dizer que é possível sim utilizar persistência com o
AI::Categorizer:
if ( -e $store_file ) {
$know_set = AI::Categorizer::KnowledgeSet->restore_state($store_file);
$c = AI::Categorizer->new(
knowledge_set => $know_set,
verbose => 0
);
}
else {
$know_set = AI::Categorizer::KnowledgeSet->new(
name => 'Integration Errors',
verbose => 0
);
$c = AI::Categorizer->new(
knowledge_set => $know_set,
verbose => 0
);
create_categs(
{ file => $cat_file, categorizer => $c, stop_words =>
$stopwords } );
$know_set->save_state($store_file);
}
O fato de poder evitar "reaprender" economizou tempo, ciclo de CPU e
memória no programa que desenvolvi.
No mais, por qual motivo você optou por usar MongoDB como backend? Digo,
além da escalabilidade? Não existe uma possível perda de dados neste caso?
[]'s
Alceu
Em 18-04-2013 10:03, Stanislaw Pusep escreveu:
> Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra:
> pre-processar o documento e representá-lo com hashes de seus tokens
> customizados. Uma excelente referencia:
> http://hunch.net/~jl/projects/hash_reps/index.html
>
>
> ABS()
>
>
> 2013/4/18 Alceu Rodrigues de Freitas Junior <glasswalk3r at yahoo.com.br
> <mailto:glasswalk3r at yahoo.com.br>>
>
> De fato foram ótimas dicas.
>
> Só fiquei com uma dúvida: como controlar o AI::Categorizer para
> utilizar como tokens mais de uma palavra?
>
> []'s
> Alceu
>
More information about the SaoPaulo-pm
mailing list