[Madrid-pm] Eliminar las stopwords de un texto

Salvador Fandino sfandino en yahoo.com
Lun Mar 29 02:17:57 PDT 2010





----- Original Message ----
> From: PEGG <preiddy en gmail.com>
> To: Lista de correo de Madrid Perl Mongers <madrid-pm en pm.org>
> Sent: Mon, March 29, 2010 11:10:09 AM
> Subject: Re: [Madrid-pm] Eliminar las stopwords de un texto
> 
> Gracias, pero con esa forma pierdo la estructura de registro, en
teoría cada 
> registro está separado por un salto de linea. Aunque he
visto algunos 
> registros que dentro tienen varios saltos de lineas, por
eso digo en teoria, 
> jajajaja. Esto me tiene loco, 
> jajajaja,

que tal asi:

  use Lingua::EN::StopWords qw(%StopWords);
  
open(TEXTO,"contenido.txt");

  while (<TEXTO>) {
    my @words = grep !$StopWords{$_}, /\w+/g;
    print "@words\n";
  }

De todas formas, todo dependera de lo que quieras obtener. Antes de ponerte a escribir nada en Perl deberias de pararte a pensar como son tus datos de entrada y en que los quieres transformar.

- Salva


Más información sobre la lista de distribución Madrid-pm