[Moscow.pm] Web-spider

Александр Фокскул foxcool333 на gmail.com
Сб Июн 2 03:56:07 PDT 2012


Я бы посоветовал сразу силениум. На новые версии браузера часто проблемно
найти расширение.
У силениума есть сервер и модуль для перла на CPAN.

02.06.2012 14:09 пользователь "Ali Ramazanov" <netspamer на gmail.com> написал:
>
> Как вариант использовать
> https://metacpan.org/module/WWW::Mechanize::Firefox и собственно сам
> firefox с плагином Mozrepl. Решение рабочее, но не производительное.
> Firefox нужно периодически рестартить, из-за отжирания памяти)
>
> 2 июня 2012 г., 9:52 пользователь Alessandro Gorohovski
> <an.gorohovski на gmail.com> написал:
> > Гнатына Александр <gnatyna на ya.ru> писал(а) в своём письме Fri, 01 Jun
2012
> > 23:03:05 +0300:
> >
> >> wget
> >>
> >> Огласите требования.
> >
> >
> > Требования, вроде бы, не хитрые --- нужно сохранить всю инфу
web-страницы в
> > html -файл.
> >
> > Обычно, поступал так, например:
> >
> > my $url = 'http://www.адрес <http://www.xn--80aid7bg>';
> >
> >
> > my $agent = LWP::UserAgent->new;
> > $agent->agent("Opera");
> >
> > my $request = HTTP::Request->new( GET => $url );
> > $request->header('Accept' => 'text/html');
> >
> > open(FILE, ">info.html");
> > print FILE_S $response->content;
> > close FILE;
> >
> > Но сейчас столкнулся с тем, что для Web-страниц, содержащих JavaScript
> > все содержимое не могу получить,
> > т.е. то что вижу в броузере (Opera or others) нет в сохранённом файле.
> >
> > Понимаю, что здесь проблема для меня с отработкой JavaScript, которые
> > выполняются в броузере.
> >
> > Вопрос в том, есть ли какой Perl-модуль или что-то консольное,
выполняющее
> > все что делает броузер
> > с возможностью сохранения этого результата?
> >
> >
> >
> >> В Птн, 01/06/2012 в 21:58 +0300, Alessandro Gorohovski пишет:
> >>>
> >>> Уважаемое сообщество,
> >>> Доброго времени суток!
> >>>
> >>> Посоветуйте модуль (кому реально приходилось пользоваться)
> >>> хорошего Web-spider.
> >>>
> >>> P.s.
> >>> На CPAN смотрел, их бескрайнее множество.
> >>>
> >>> Спасибо
> >>
> >>
> >>
> >
> >
> > --
> > Alessandro
> >
> > --
> > Moscow.pm mailing list
> > moscow-pm на pm.org | http://moscow.pm.org
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120602/7b8671c4/attachment.html>


Подробная информация о списке рассылки Moscow-pm