[SP-pm] discutindo o namespace para um módulo de análise estatística de textos
Nelson Ferraz
nferraz em gmail.com
Quinta Junho 21 09:08:42 PDT 2007
> O módulo analisa a estatística de textos. Em
> lingüística, coleções de textos são chamadas de
> corpora, no singular, corpus. (Em recuperação de
> informação costuma-se utilizar a palavra
> "coleção"). O output é um arquivo CSV (comma
> separeted value) com 7 colunas, conforme descrição
> anterior.
Hm... evite definir o output dessa forma. Se ele quiser, ele mesmo
pode colocar num CSV.
Uma interface mais flexível, na minha opinião, seria algo assim:
my $doc = Text::Statistics::Latin->new();
# 1a. Open filename...
$doc->open( "filename.txt" );
# 1b. ...or parse a scalar directly
$doc->parse( $text );
# 2. See results
my @word_forms = $doc->word_forms();
my @tokens = $doc->tokens();
foreach ( @tokens ) {
my $frequency = $doc->frequency( $_ );
}
my $utf8 = $parser->utf8();
Eu realmente não sei se esta interface faz sentido, mas eu realmente
acho que você precisa repensar a interface. Tente pensar sob a ótica
de um novo usuário, que pode ter um uso completamente diferente do seu.
[]s
Nelson
Mais detalhes sobre a lista de discussão SaoPaulo-pm