[SP-pm] Web Crawler com proxy lento

Stanislaw Pusep creaktive at gmail.com
Thu Jan 30 03:16:07 PST 2014


Exemplo para a minha resposta, utilizando https://metacpan.org/pod/yada:

$ yada --max 30 --proxy socks4://127.0.0.1:9060 --useragent 'Mozilla/4.0
(MSIE 6.0; Windows NT 5.0)' lista_de_urls.txt

Isso assumindo que vc esteja rodando o daemon do tor com a configuração
padrão, e que o arquivo lista_de_urls.txt tenha 1 URL por linha :)
Pela minha experiência, dá para aumentar a concorrência muito mais. Mas
para isso teria que rodar vários daemons do tor, cada um conectado em um
circuito diferente. Isso engana até o firewall do Akamai :D


2014-01-30 Solli Honorio <shonorio em gmail.com>

> Lucas,
>
> Com relação a lentidão, estou assumindo que antes vc fazia o acesso ao
> site na mesma localização (o teu script roda no Brasil para acessar o
> servidor que está no Brasil também) e com o proxy passou ter acesso via
> outra região (EUA por exemplo).
>
> Se for isto, só esta mudança vai fazer você altera a latência de uns 30 ms
> (no meu ambiente tenho latência de 3 ms) para qualquer coisa começando com
> 300 ms. Ou seja, a simples troca de ponto de acesso faz com que o tempo de
> viagem aumente em 10 vezes (no mínimo).
>
> Contra latência não muito o que fazer, mas recentemente tive um ganho
> interessante nos meus scripts trocando o
> LWP::UserAgent pelo WWW::Curl::UserAgent.
>
> O Stan tem razão, diante do fato, aparentemente o paralelismo parece ser a
> melhor alternativa.
>
> Para aumentar o paralelismo, recomendo fortemente utilizar
> o Parallel::ForkManager.
>
> Abraços,
>
> Solli Honorio
>
>
>
> Em 29 de janeiro de 2014 19:59, Lucas Moraes <lucastiagodemoraes em gmail.com
> > escreveu:
>
>>  Boa noite pessoal, estou fazendo web crawler de um site, só que esse
>> site bloqueou meu IP e fui forçado a usar proxy, mas estou tento problema
>> de lentidão. Alguém tem alguma solução para deixar o proxy mais rápido?
>> Falou.
>>
>> =begin disclaimer
>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>>
>>
>
>
> --
> "o animal satisfeito dorme". - Guimarães Rosa
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm em pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>
-------------- Pr�xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20140130/0a26a023/attachment.html>


More information about the SaoPaulo-pm mailing list