[caracas-pm] Re: [l-linux] OFF TOPIC: Robarme el código fuente de otras páginas web's

Ernesto Hernandez-Novich emhn at telcel.net.ve
Mon Jan 3 08:24:18 CST 2005


On Sun, 2 Jan 2005, Wilfredo Rodriguez wrote:
> Intento robarme una sierta parte de un documento en la web, es decir,

Intento "citar" :-)

> algo ubicado entre <htm> </htm> o entre </body><body>, o mas
> interesante entre "document.write(' " y " '); " .

Este es tu caso particular.

> veamos el código siguiente:
[... demasiado código ...]
> Aun no comprendo porque no funciona, cual serà el error en el còdigo?
> Gracias de antemano..

El error puede ser usar PHP... :-) Quizás algunas de las cosas que te
han comentado otros PHPeros sea la causa, sin embargo, al utilizar un
lenguaje de programación que si ahorra tiempo, la parte "dura" se puede
hacer con dos líneas

#!/usr/bin/perl
use LWP::Simple;
$c=~s/document\.write\('(.*)'\);/$1/,print $c
  if defined($c=get("http://servicios.citasyrefranes.com/citadeldiatexto.php"));

El módulo LWP de Perl permite hacer todo lo que uno hace con un
navegador (o cliente HTTP, HTTPS, FTP y similares) en muy pocas líneas.
Si necesitas analizar HTML, entonces HTML::TokeParser o HTML::LinkExtor
suelen ser suficientes. Y hacer prints para generar HTML es una
invitación a trabajar demasiado; es mejor escribir un template HTML
usando nvu, BlueFish, Mozilla Composer, etc. y luego cargarlo con
HTML::Template y dos líneas más tarde generas el resultado deseado.
-- 
Ernesto Hernández-Novich - On Linux 2.6.9 i686 - Unix: Live free or die!
Geek by nature, Linux by choice, Debian of course.
If you can't apt-get it, it isn't useful or doesn't exist.
GPG Key Fingerprint = 438C 49A2 A8C7 E7D7 1500 C507 96D6 A3D6 2F4C 85E3


More information about the caracas-pm mailing list