[SP-pm] discutindo o namespace para um módulo de análise estatística de textos

Rodrigo Fernandes rodrigopan em yahoo.com
Quinta Junho 21 08:10:21 PDT 2007


Boa tarde,

Escrevi um módulo e gostaria de discutir o namespace
para registro no CPAN.

Abaixo, a descirção, conforme aparece no código,
já com a sugestão de 'Text::Statistics::Latin':

<code>
# $Id: Latin.pm,v 1.0 2007/06/12 09:17:36 rpfernandes
Exp $
#Copyright (c) 2007 Rodrigo Panchiniak Fernandes. All
rights reserved.
#
# 
#
# This program is free software; you can redistribute
it and/or
# modify it under the same terms as Perl itself.
=head1 NAME

Text::Statistics::Latin - performs corpora statistical
analyses

=head1 SYNOPSIS

  use CText::Statistics::Latin; 
  &Text::Statistics::Latin:LATIN();

=head1 DESCRIPTION

Text::Statistics::Latin creates a seven column CSV
file output with one line each
token per text given as input a corpus that files
names follows '
    1 (1). txt', '1 (2). txt', ..., '1 (n).txt'  or
    1 \(([1-9]|[1-9][0-9]+)\)\.txt
Columns stores statistical information:
(1) number of word forms in document d;
(2) number of tokens in d;
(3) Id number of d, ie., n;
(4) frequency of term t in d;
(5) corpus frequency of t ;
(6) document frequency of t (number of documents where
t occurs at least once);
(7) t, UTF8 latin coded token-string

Main output file name is '1 (n + 5).txt' and it is
stored in the same directory as
the corpus itself, toghether with residual files on
each input file with .txu and .txv extensions.

This code was written under CAPES BEX-09323-5

=head2 Methods

Example:

#!/usr/bin/perl 
use strict;
use Text::Statistics::Latin;

&Text::Statistics::Latin::LATIN("5");     #4 files (5
- 1) are analysed.

=over
=cut
</code>

Discuti este nome com Alberto Simões, autor de
vários módulos para o processamento automático do
português, e ele achou adequado. 
Porém, gostaria de saber também a opinião dos São
Paulo Perl Mongers. 
Em anexo envio uma amostra de output que o módulo
produziu, sobre uma coleção de 49 textos.

Grato,

Rodrigo Panchiniak Fernandes
Doutorando em Lingüística Computacional
Bolsista CAPES
www.clul.ul.pt/clg
www.nes.ufsc.br



__________________________________________________
Do You Yahoo!?
Tired of spam?  Yahoo! Mail has the best spam
protection around 
http://mail.yahoo.com 

__________________________________________________
Do You Yahoo!?
Tired of spam?  Yahoo! Mail has the best spam protection around 
http://mail.yahoo.com 
-------------- Próxima Parte ----------
Um anexo não texto foi limpo...
Nome  : 1 (55).zip
Tipo  : application/x-zip-compressed
Tam   : 178203 bytes
Descr.: 81006803-1 (55).zip
Url   : http://mail.pm.org/pipermail/saopaulo-pm/attachments/20070621/f975571e/attachment-0001.bin 


Mais detalhes sobre a lista de discussão SaoPaulo-pm