[Rio-pm] Data Mining & Perl

breno breno em rio.pm.org
Terça Dezembro 20 14:46:07 PST 2011


2011/12/20 Diana Rosa <diana.g.a.rosa em gmail.com>:
> Ola a todos!
>
> Duvidas... Começando a pesquisar sobre o assunto... Falaram por alto sobre o
> assunto no YAPC (pelo menos nas palestras que vi), mas nao lembro e nao
> anotei  nenhum framework em especifico..
> Em java (ok, nao uma menção muito boa), ha o Lucene que e capaz de extrair
> dados de paginas com  um crawler como  o Nutch e popular um indice (muito
> mais leve que um bd) e tem funções ja prontas com aspectos de data mining
> podendo fazer com facilidade coisas como dynamic clustering, more like this,
> hit highlighting, ... Ha tambem coisas como o weka para as associações...
>  Quais  seriam os frameworks paralelos mais recomendados  em Perl?
>

Oi Diana,

Em termos de engines de busca, se você gosta do Lucene pode dar uma
olhada no Plucene => https://metacpan.org/module/Plucene ou nas APIs
para o Solr (https://metacpan.org/module/WebService::Solr e
https://metacpan.org/module/Solr)

Muita gente também usa o Sphinx (sphinxsearch.com), alguns conectando
diretamente, outros através de wrappers como o Sphinx::Search.

Outro bastante popular é o KinoSearch => https://metacpan.org/module/KinoSearch

Também tem wrapper pro Lucy da Apache
(https://metacpan.org/module/Lucy) e pro Swish-e
(https://metacpan.org/module/SWISH::API::Object).

Se vc achou muito, o número aumenta ainda mais quando falamos de
crawlers. Os mais populares, acredito, são (em nenhuma ordem
particular):

   * Mojo::UserAgent
   * Web::Scraper
   * pQuery
   * Scrappy
   * WWW::Mechanize (e WWW::Mechanize::TreeBuilder)

Infelizmente não sei de nenhum que faça uma integração como o Nutch.
Mas usando esses módulos aí e outros do CPAN como o App::Rad, pode ser
um projeto divertido :)

Dá até pra expandir o conceito do Nutch e usar algo como o
Regexp::Genex pra ele tentar um crawler "cego". Acho que o Nikto (que
é em Perl) faz isso - embora com outro propósito.

Boa sorte!

[]s

-b


Mais detalhes sobre a lista de discussão Rio-pm