[SP-pm] parser pdf

Solli Honorio shonorio at gmail.com
Tue Sep 1 16:15:29 PDT 2009


Jimmy,

Você não despertou interesse no público com o teu problema, seria legal você
entender o motivo. A mim ficou dúvidas do tipo :
* se ele já tem a solução com o pdftotext e pdftohtml, no que eu posso
ajudar então ?
* o que seria 'uma forma melhor de realizar este tipo de tarefa?', se eu nem
entendi qual o problema de ser realizado desta maneira !

Sem compreender onde realmente posso ajudar, eu peço para vc dar uma olhada
no CAM::PDF ou no PDF::OCR2. Este último parece meio chato de instalar, tem
até um procedimento (
http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL).

Sinta-se avontade de ir enviando as dúvidas conforme elas forem surgindo.

Obrigado,

Solli M. Honório



2009/8/26 jimmy <jimmy.tty em gmail.com>

> saudações,
>
> preciso retirar certas informações de arquivos no formato pdf e hoje
> uso o pdftotext e pdftohtml (para converter para texto e xml
> respectivamente), ambos derivados de uma biblioteca chamada poppler
> (http://poppler.freedesktop.org/), essas ferramentas fazem uma certa
> "renderização" do arquivo pdf para texto (os arquivos que manipulam
> permitem isso), tornando possível realizar buscas e extrair o texto
> desejado. A maioria das outras ferramentas/métodos que testei eram muito
> inferiores, extraindo apenas o texto num formato "raw" e ilegível.
> Cheguei a encontrar um binding da poppler em perl, mas na documentação
> não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa
> implementação usa XS, que não conheço quase nada, e não sei se por acaso o
> binding gerado herdaria todas as funcionalidades da biblioteca).
>
> alguém conhece e/ou sugere uma forma melhor de realizar este tipo de
> tarefa?
>
> uma segunda aplicação seria a conversão para texto para facilitar a
> acessibilidade, tenho uma amiga que é deficiente visual e para ela a
> conversão para texto (quando possível) é melhor do que o trabalho
> feito pelos leitores de tela que tentam ler o arquivo pdf (quando
> legível).
>
> grato a todos.
>
> --
> "Não manejo bem as palavras
> Mas manipulo bem as strings."
> ------------------------------
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm em pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>



-- 
"o animal satisfeito dorme". - Guimarães Rosa
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20090901/ebd2a7ac/attachment.html>


More information about the SaoPaulo-pm mailing list