[SP-pm] Web Crawler com proxy lento

Solli Honorio shonorio at gmail.com
Thu Jan 30 02:20:13 PST 2014


Lucas,

Com relação a lentidão, estou assumindo que antes vc fazia o acesso ao site
na mesma localização (o teu script roda no Brasil para acessar o servidor
que está no Brasil também) e com o proxy passou ter acesso via outra região
(EUA por exemplo).

Se for isto, só esta mudança vai fazer você altera a latência de uns 30 ms
(no meu ambiente tenho latência de 3 ms) para qualquer coisa começando com
300 ms. Ou seja, a simples troca de ponto de acesso faz com que o tempo de
viagem aumente em 10 vezes (no mínimo).

Contra latência não muito o que fazer, mas recentemente tive um ganho
interessante nos meus scripts trocando o
LWP::UserAgent pelo WWW::Curl::UserAgent.

O Stan tem razão, diante do fato, aparentemente o paralelismo parece ser a
melhor alternativa.

Para aumentar o paralelismo, recomendo fortemente utilizar
o Parallel::ForkManager.

Abraços,

Solli Honorio



Em 29 de janeiro de 2014 19:59, Lucas Moraes
<lucastiagodemoraes em gmail.com>escreveu:

> Boa noite pessoal, estou fazendo web crawler de um site, só que esse site
> bloqueou meu IP e fui forçado a usar proxy, mas estou tento problema de
> lentidão. Alguém tem alguma solução para deixar o proxy mais rápido?
> Falou.
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>


-- 
"o animal satisfeito dorme". - Guimarães Rosa
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20140130/5a340c28/attachment.html>


More information about the SaoPaulo-pm mailing list