[Rio-pm] Data Mining & Perl
breno
breno em rio.pm.org
Terça Dezembro 20 14:46:07 PST 2011
2011/12/20 Diana Rosa <diana.g.a.rosa em gmail.com>:
> Ola a todos!
>
> Duvidas... Começando a pesquisar sobre o assunto... Falaram por alto sobre o
> assunto no YAPC (pelo menos nas palestras que vi), mas nao lembro e nao
> anotei nenhum framework em especifico..
> Em java (ok, nao uma menção muito boa), ha o Lucene que e capaz de extrair
> dados de paginas com um crawler como o Nutch e popular um indice (muito
> mais leve que um bd) e tem funções ja prontas com aspectos de data mining
> podendo fazer com facilidade coisas como dynamic clustering, more like this,
> hit highlighting, ... Ha tambem coisas como o weka para as associações...
> Quais seriam os frameworks paralelos mais recomendados em Perl?
>
Oi Diana,
Em termos de engines de busca, se você gosta do Lucene pode dar uma
olhada no Plucene => https://metacpan.org/module/Plucene ou nas APIs
para o Solr (https://metacpan.org/module/WebService::Solr e
https://metacpan.org/module/Solr)
Muita gente também usa o Sphinx (sphinxsearch.com), alguns conectando
diretamente, outros através de wrappers como o Sphinx::Search.
Outro bastante popular é o KinoSearch => https://metacpan.org/module/KinoSearch
Também tem wrapper pro Lucy da Apache
(https://metacpan.org/module/Lucy) e pro Swish-e
(https://metacpan.org/module/SWISH::API::Object).
Se vc achou muito, o número aumenta ainda mais quando falamos de
crawlers. Os mais populares, acredito, são (em nenhuma ordem
particular):
* Mojo::UserAgent
* Web::Scraper
* pQuery
* Scrappy
* WWW::Mechanize (e WWW::Mechanize::TreeBuilder)
Infelizmente não sei de nenhum que faça uma integração como o Nutch.
Mas usando esses módulos aí e outros do CPAN como o App::Rad, pode ser
um projeto divertido :)
Dá até pra expandir o conceito do Nutch e usar algo como o
Regexp::Genex pra ele tentar um crawler "cego". Acho que o Nikto (que
é em Perl) faz isso - embora com outro propósito.
Boa sorte!
[]s
-b
Mais detalhes sobre a lista de discussão Rio-pm