[Moscow.pm] Web-spider

Alexandr Alexeev afiskon на gmail.com
Сб Июн 2 05:05:06 PDT 2012


Не модуль, но все же: http://eax.me/web-spider/ + см 10-й пункт
http://eax.me/mini-notes-issue-4/

2 июня 2012 г., 14:56 пользователь Александр Фокскул
<foxcool333 на gmail.com>написал:

> Я бы посоветовал сразу силениум. На новые версии браузера часто проблемно
> найти расширение.
> У силениума есть сервер и модуль для перла на CPAN.
>
> 02.06.2012 14:09 пользователь "Ali Ramazanov" <netspamer на gmail.com>
> написал:
>
> >
> > Как вариант использовать
> > https://metacpan.org/module/WWW::Mechanize::Firefox и собственно сам
> > firefox с плагином Mozrepl. Решение рабочее, но не производительное.
> > Firefox нужно периодически рестартить, из-за отжирания памяти)
> >
> > 2 июня 2012 г., 9:52 пользователь Alessandro Gorohovski
> > <an.gorohovski на gmail.com> написал:
> > > Гнатына Александр <gnatyna на ya.ru> писал(а) в своём письме Fri, 01 Jun
> 2012
> > > 23:03:05 +0300:
> > >
> > >> wget
> > >>
> > >> Огласите требования.
> > >
> > >
> > > Требования, вроде бы, не хитрые --- нужно сохранить всю инфу
> web-страницы в
> > > html -файл.
> > >
> > > Обычно, поступал так, например:
> > >
> > > my $url = 'http://www.адрес <http://www.xn--80aid7bg>';
> > >
> > >
> > > my $agent = LWP::UserAgent->new;
> > > $agent->agent("Opera");
> > >
> > > my $request = HTTP::Request->new( GET => $url );
> > > $request->header('Accept' => 'text/html');
> > >
> > > open(FILE, ">info.html");
> > > print FILE_S $response->content;
> > > close FILE;
> > >
> > > Но сейчас столкнулся с тем, что для Web-страниц, содержащих JavaScript
> > > все содержимое не могу получить,
> > > т.е. то что вижу в броузере (Opera or others) нет в сохранённом файле.
> > >
> > > Понимаю, что здесь проблема для меня с отработкой JavaScript, которые
> > > выполняются в броузере.
> > >
> > > Вопрос в том, есть ли какой Perl-модуль или что-то консольное,
> выполняющее
> > > все что делает броузер
> > > с возможностью сохранения этого результата?
> > >
> > >
> > >
> > >> В Птн, 01/06/2012 в 21:58 +0300, Alessandro Gorohovski пишет:
> > >>>
> > >>> Уважаемое сообщество,
> > >>> Доброго времени суток!
> > >>>
> > >>> Посоветуйте модуль (кому реально приходилось пользоваться)
> > >>> хорошего Web-spider.
> > >>>
> > >>> P.s.
> > >>> На CPAN смотрел, их бескрайнее множество.
> > >>>
> > >>> Спасибо
> > >>
> > >>
> > >>
> > >
> > >
> > > --
> > > Alessandro
> > >
> > > --
> > > Moscow.pm mailing list
> > > moscow-pm на pm.org | http://moscow.pm.org
> > --
> > Moscow.pm mailing list
> > moscow-pm на pm.org | http://moscow.pm.org
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>


-- 
С уважением, Александр
Личный блог: http://eax.me/
Мой форум: http://it-talk.org/
Мой Twitter: http://twitter.com/afiskon
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20120602/76240a71/attachment-0001.html>


Подробная информация о списке рассылки Moscow-pm