Re: [caracas-pm] Re: [l-linux] OFF TOPIC: Robarme el código fuente de otras páginas web's

Luis Muñoz lem at cantv.net
Mon Jan 3 14:04:36 CST 2005


El Jan 3, 2005, a las 10:24 AM, Ernesto Hernandez-Novich escribió:

> Si necesitas analizar HTML, entonces HTML::TokeParser o HTML::LinkExtor
> suelen ser suficientes.

<plug class="shameless">

En un artículo que publiqué hace algún tiempo, se muestra un ejemplo de 
cómo hacer el reconocimiento de código en HTML usando HTML::Parser. El 
artículo está en

http://mipagina.cantv.net/lem/perl/mime.html

En 12 (a partir de la 62) líneas de código, se crea un parser que 
convierte HTML a una representación en texto plano del contenido de la 
página.

</plug>

Cabe decir que es "peligroso" intentar reconocer construcciones sólo 
con expresiones regulares. Los casos simples suelen ser muy fáciles de 
capturar, pero hay casos complejos (líneas con terminaciones 
"escapadas", delimitadores confusos, etc) que hacen la solución basada 
en expresiones regulares, poco confiables. Sin embargo, está bien para 
algo "quick & dirty".

Saludos.

-lem




More information about the caracas-pm mailing list