Não conheço nada sobre isso especificalmente em Perl, mas se ajudar, o termo técnico<br>para o que você quer é &quot;remoção de stopwords&quot;, pode ajudar na busca.<br><br>Se vc cair no Do it yourself, nesse texto de um ex-professor meu tem uma lista de stopwords:<br>
<cite><a href="http://www.icmc.usp.br/~taspardo/NILCTR0213-Pardo.pdf">www.icmc.usp.br/~taspardo/NILCTR0213-Pardo.pdf</a> </cite><br><br>[]s<br clear="all">Vinicius Baggio Fuentes<br><a href="http://www.vinibaggio.com">http://www.vinibaggio.com</a><br>

<br><br><div class="gmail_quote">2009/10/5 jimmy <span dir="ltr">&lt;<a href="mailto:jimmy.tty@gmail.com">jimmy.tty@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
saudações,<br>
<br>
tenho texto semelhantes a este:<br>
<br>
34ª Regional de São José dos Campos e de Sta Bárbara d&#39;Oeste<br>
<br>
para armazená-lo no banco, preciso deixá-lo desta forma:<br>
<br>
34 REGIONAL SAO JOSE CAMPOS SANTA BARBARA OESTE<br>
<br>
antes eu fazia tudo com regex e transliteração &quot;na mão&quot;, depois que<br>
vi na lista a recomendação do Text::Unidecode e do Text::Unaccent,<br>
abandonei a ideia de fazer a parte deles na mão.<br>
<br>
alguém conhece algum módulo para remover as conjunções, preposições<br>
etc de um texto mantendo apenas as palavras do mesmo?<br>
<br>
grato.<br>
<font color="#888888"><br>
<br>
--<br>
&quot;Não manejo bem as palavras<br>
Mas manipulo bem as strings.&quot;<br>
------------------------------<br>
_______________________________________________<br>
SaoPaulo-pm mailing list<br>
<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>
<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br>
</font></blockquote></div><br>