[Rio-pm] Extraindo texto de PDF

gabriel lima gabriellima333 em hotmail.com
Terça Junho 24 07:17:24 PDT 2008


Pessoal, estou com um pequeno problema :-)Estou tentando extrair o texto de uma determinada página de um arquivo PDF.Para fazer isso, instalei o módulo CAM::PDF que tem algunsmétodos interessantes. Aqui está o módulo:http://search.cpan.org/~cdolan/CAM-PDF-1.13/lib/CAM/PDF.pmEstava tentanto usar o método getPageText() para extrair o texto. Mas ele não estáretornando o texto da página. Tambem testei o método numPages() para pegar o númerode páginas do arquivo. Esse sim funcionou.----------------------------------------------------------------------#!/usr/bin/perl  use strict;  use warnings;  use CAM::PDF;  my $pdf = CAM::PDF->new('arquivo.pdf');  print "Numero de paginas: " . $pdf->numPages() . "\n";  my $text = $pdf->getPageText(4); print "$text";----------------------------------------------------------------------O pdf é esse aqui...http://www.trf1.gov.br/edjf1/edjf1_3800_46_1_20080623.pdfEstou precisando fazer isso aqui no estágio :-)Se alguem me ajudar eu agradeço muito!A é, se alguem souber de outro módulo e que tenha feito o mesmo deoutra maneira poderia me ajudar.Obrigado pessoal!
_________________________________________________________________
Confira vídeos com notícias do NY Times, gols direto do Lance, videocassetadas e muito mais no MSN Video!
http://video.msn.com/?mkt=pt-br


Mais detalhes sobre a lista de discussão Rio-pm