[SP-pm] módulo para remover conjunções, preposições etc

Vinícius Baggio Fuentes vinibaggio at gmail.com
Mon Oct 5 11:00:48 PDT 2009


Não conheço nada sobre isso especificalmente em Perl, mas se ajudar, o termo
técnico
para o que você quer é "remoção de stopwords", pode ajudar na busca.

Se vc cair no Do it yourself, nesse texto de um ex-professor meu tem uma
lista de stopwords:
www.icmc.usp.br/~taspardo/NILCTR0213-Pardo.pdf

[]s
Vinicius Baggio Fuentes
http://www.vinibaggio.com


2009/10/5 jimmy <jimmy.tty at gmail.com>

> saudações,
>
> tenho texto semelhantes a este:
>
> 34ª Regional de São José dos Campos e de Sta Bárbara d'Oeste
>
> para armazená-lo no banco, preciso deixá-lo desta forma:
>
> 34 REGIONAL SAO JOSE CAMPOS SANTA BARBARA OESTE
>
> antes eu fazia tudo com regex e transliteração "na mão", depois que
> vi na lista a recomendação do Text::Unidecode e do Text::Unaccent,
> abandonei a ideia de fazer a parte deles na mão.
>
> alguém conhece algum módulo para remover as conjunções, preposições
> etc de um texto mantendo apenas as palavras do mesmo?
>
> grato.
>
>
> --
> "Não manejo bem as palavras
> Mas manipulo bem as strings."
> ------------------------------
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm at pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20091005/84f87452/attachment-0001.html>


More information about the SaoPaulo-pm mailing list