[SP-pm] Capturar dados de sites

Marcio Ferreira marciodesouzaferreira at gmail.com
Thu May 9 09:04:19 PDT 2013


Repare que ele passa o parametro da busca via GET,
http://www.telelistas.net/templates/resultado_busca.aspx?q=lala
há parametros a mais necessarios, mas basicamente vc precisa entender a
resposta desse GET navegando pelo DOM da página.

Pra isso use Web::Scrape, WWW::Mechanize, HTML::Treebuilder::XPATH, etc.

Esse tipo de tarefa parece simples, mas é ridiculamente simples. ( Amigo
meu que nao sabia nada de perl a 7 dias atrás, hoje me mostrou isso
https://github.com/ricardoalcantara/noip_lightweight_client_perl/blob/master/noip
 ).

O Mindset/Arquitetura de se fazer crawler é mais importante que a técnica
em si de programar.
Por exemplo, você precisa revisitar a pesquisa ou usará sempre o resultado
do banco de dados??

Precisa fazer as perguntas pro seu negócio


[]s,

Marcio Ferreira
skype: marcio.ferreir4
(21) 8365-7768


2013/5/9 Marcio - Google <marciorp at gmail.com>

> Mestres,
>
> Estou procurando uma forma de fazer um aplicativo que navegue em um
> determinado site, capture algumas informações e grave em BD.
>
> Pra ficar mais fácil de entender, vai um exemplo.
> Entrar no site telelistas.net, preencher uma determinada palavra-chave
> para busca, acionar o botão buscar e pegar os nomes e telefones para salvar
> no BD. Isso sem interação/intervenção do usuário.
>
> Alguma ideia? Módulo? Mágica?
>
> Ah, o site alvo é Asp.Net.
>
> Abs,
>
>
> Marcio
>
> ========================================
> ########### Campanha Ajude o Marcio! ###########
> http://sosmarcio.blogspot.com.br/
> http://www.vakinha.com.br/VaquinhaP.aspx?e=195793
> ========================================
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20130509/94a8277d/attachment-0001.html>


More information about the SaoPaulo-pm mailing list