[SP-pm] Extrair conteúdo HTML. WWW::Mechanize ?

Daniel de Oliveira Mantovani daniel.oliveira.mantovani at gmail.com
Tue Oct 14 12:44:34 PDT 2008


print "Bom dia\n" if day == manha;
print "Boa tarde\n" if day == tarde;
print "Boa noite\n" if day == noite;

Bom pessoal como vocês disseram que não é bom usar Expressões Regulares para
extrair conteúdo HTML, e pelo que vi no manual do WWW::Mechanize, porém eu
não consigo extrair com a mesma eficácia.

Essa parte do código:

*    foreach ( split("\n",$data->content()) ) {
        if ( m{</strong><br><i>  \(  (.+?)  \)  </i></td>}igx ) {
        push(@filmes,$1);

*Quero usar o WWW::Mechanize para extrair essa parte.
Olhei os exemplos do WWW::Mechanize:
*
http://search.cpan.org/~petdance/WWW-Mechanize-1.34/lib/WWW/Mechanize/Examples.pod
*
e vi que o autor usou Expressões Regulares para extrair:
* @bits = $r =~ m{<TD.*?>(.*?)</TD>}gs;*

O meu projeto abaixo:


#!/usr/bin/perl

use strict;
use warnings;
use WWW::Mechanize;
use WWW::Search::Mininova;

{package Hgtorrent;

sub Nomes
 {
 my $self = shift;
 my @filmes = ();
 my $data = WWW::Mechanize->new();
 $data->get('http://www.hgcinema.com.br/programacao/index.php');
    foreach ( split("\n",$data->content()) ) {
        if ( m{</strong><br><i>  \(  (.+?)  \)  </i></td>}igx ) {
        push(@filmes,$1);
        }
    }
 return @filmes;
 }

sub Procurar
 {
 my $self = shift;
 my $busca = shift;
 my $mini = WWW::Search::Mininova->new( category => 'Movies',sort => 'Seeds'
,);
 $mini->search("$busca");
 my $result = $mini->result;
    if (defined $result->{name}) {
    print "Name: ", $result->{name},$/,
    "Seeds: ", $result->{seeds},$/,
    "Leechers: ", $result->{leechers},$/,
    "Uri: ", $result->{uri},$/,
    "Download uri: ", $result->{download_uri},$/,
    "Size: ", $result->{size},$/,
    "Category: ", $result->{category},$/,
    "Sub Category: ", $result->{subcategory},$/,
    "Added data: " ,$result->{added_date},$/;
     }
    else {
    print "Not Found\n";
    }
 }


}

*-D-----> Abraço *
-- 
print
"\x54\x68\x65\x20\x53\x69\x6c\x65\x6e\x74\x20\x47\x75\x61\x72\x64\x69\x61\x6e",$/
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20081014/7462ebb6/attachment-0019.html>


More information about the SaoPaulo-pm mailing list