[SP-pm] Web Crawler com proxy lento

Tiago Peczenyj tiago.peczenyj at gmail.com
Thu Jan 30 02:23:26 PST 2014


Tente usar uma lista maior de proxies.  E se possível tente  negociar um
user agent que não seja barrado, tente respeitar ETAG, if-modify-since etc.
Le 30 janv. 2014 08:20, "Solli Honorio" <shonorio at gmail.com> a écrit :

> Lucas,
>
> Com relação a lentidão, estou assumindo que antes vc fazia o acesso ao
> site na mesma localização (o teu script roda no Brasil para acessar o
> servidor que está no Brasil também) e com o proxy passou ter acesso via
> outra região (EUA por exemplo).
>
> Se for isto, só esta mudança vai fazer você altera a latência de uns 30 ms
> (no meu ambiente tenho latência de 3 ms) para qualquer coisa começando com
> 300 ms. Ou seja, a simples troca de ponto de acesso faz com que o tempo de
> viagem aumente em 10 vezes (no mínimo).
>
> Contra latência não muito o que fazer, mas recentemente tive um ganho
> interessante nos meus scripts trocando o
> LWP::UserAgent pelo WWW::Curl::UserAgent.
>
> O Stan tem razão, diante do fato, aparentemente o paralelismo parece ser a
> melhor alternativa.
>
> Para aumentar o paralelismo, recomendo fortemente utilizar
> o Parallel::ForkManager.
>
> Abraços,
>
> Solli Honorio
>
>
>
> Em 29 de janeiro de 2014 19:59, Lucas Moraes <lucastiagodemoraes at gmail.com
> > escreveu:
>
>> Boa noite pessoal, estou fazendo web crawler de um site, só que esse site
>> bloqueou meu IP e fui forçado a usar proxy, mas estou tento problema de
>> lentidão. Alguém tem alguma solução para deixar o proxy mais rápido?
>> Falou.
>>
>> =begin disclaimer
>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>>
>>
>
>
> --
> "o animal satisfeito dorme". - Guimarães Rosa
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20140130/c4829373/attachment-0001.html>


More information about the SaoPaulo-pm mailing list