[SP-pm] discutindo o namespace para um módulo de análise estatística de textos

Nelson Ferraz nferraz em gmail.com
Quinta Junho 21 09:08:42 PDT 2007


> O módulo analisa a estatística de textos. Em
> lingüística, coleções de textos são chamadas de
> corpora, no singular, corpus. (Em recuperação de
> informação costuma-se utilizar a palavra
> "coleção"). O output é um arquivo CSV (comma
> separeted value) com 7 colunas, conforme descrição
> anterior.

Hm... evite definir o output dessa forma. Se ele quiser, ele mesmo  
pode colocar num CSV.

Uma interface mais flexível, na minha opinião, seria algo assim:

	my $doc = Text::Statistics::Latin->new();

	# 1a. Open filename...
	$doc->open( "filename.txt" );

	# 1b. ...or parse a scalar directly
	$doc->parse( $text );

	# 2. See results
	my @word_forms = $doc->word_forms();
	my @tokens = $doc->tokens();

	foreach ( @tokens ) {
		my $frequency = $doc->frequency( $_ );
	}

	my $utf8 = $parser->utf8();

Eu realmente não sei se esta interface faz sentido, mas eu realmente  
acho que você precisa repensar a interface. Tente pensar sob a ótica  
de um novo usuário, que pode ter um uso completamente diferente do seu.

[]s

Nelson


Mais detalhes sobre a lista de discussão SaoPaulo-pm