[Rio-pm] Extraindo texto de PDF

Luiz Gonzaga lgonzaga em lncc.br
Terça Junho 24 10:07:09 PDT 2008


O script funciona. Testei com outros pdfs e funcionou. O problema deve estar 
no seu arquivo pdf.

Luiz.

Em Terça 24 Junho 2008 11:17, gabriel lima escreveu:
> Pessoal, estou com um pequeno problema :-)Estou tentando extrair o texto de
> uma determinada página de um arquivo PDF.Para fazer isso, instalei o módulo
> CAM::PDF que tem algunsmétodos interessantes. Aqui está o
> módulo:http://search.cpan.org/~cdolan/CAM-PDF-1.13/lib/CAM/PDF.pmEstava
> tentanto usar o método getPageText() para extrair o texto. Mas ele não
> estáretornando o texto da página. Tambem testei o método numPages() para
> pegar o númerode páginas do arquivo. Esse sim
> funcionou.-----------------------------------------------------------------
>-----#!/usr/bin/perl  use strict;  use warnings;  use CAM::PDF;  my $pdf =
> CAM::PDF->new('arquivo.pdf');  print "Numero de paginas: " .
> $pdf->numPages() . "\n";  my $text = $pdf->getPageText(4); print
> "$text";-------------------------------------------------------------------
>---O pdf é esse
> aqui...http://www.trf1.gov.br/edjf1/edjf1_3800_46_1_20080623.pdfEstou
> precisando fazer isso aqui no estágio :-)Se alguem me ajudar eu agradeço
> muito!A é, se alguem souber de outro módulo e que tenha feito o mesmo
> deoutra maneira poderia me ajudar.Obrigado pessoal!
> _________________________________________________________________
> Confira vídeos com notícias do NY Times, gols direto do Lance,
> videocassetadas e muito mais no MSN Video! http://video.msn.com/?mkt=pt-br
> _______________________________________________
> Rio-pm mailing list
> Rio-pm em pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm

-- 
Luiz G. P. de Almeida
Analista de Sistemas
Laboratório Nacional de Computação Científica / MCT


Mais detalhes sobre a lista de discussão Rio-pm