[SP-pm] parser pdf

Wed Aug 26 12:01:10 PDT 2009

saudações,

preciso retirar certas informações de arquivos no formato pdf e hoje
uso o pdftotext e pdftohtml (para converter para texto e xml
respectivamente), ambos derivados de uma biblioteca chamada poppler
(http://poppler.freedesktop.org/), essas ferramentas fazem uma certa
"renderização" do arquivo pdf para texto (os arquivos que manipulam
permitem isso), tornando possível realizar buscas e extrair o texto
desejado. A maioria das outras ferramentas/métodos que testei eram muito
inferiores, extraindo apenas o texto num formato "raw" e ilegível.
Cheguei a encontrar um binding da poppler em perl, mas na documentação
não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa
implementação usa XS, que não conheço quase nada, e não sei se por acaso o
binding gerado herdaria todas as funcionalidades da biblioteca).

alguém conhece e/ou sugere uma forma melhor de realizar este tipo de
tarefa?

uma segunda aplicação seria a conversão para texto para facilitar a
acessibilidade, tenho uma amiga que é deficiente visual e para ela a
conversão para texto (quando possível) é melhor do que o trabalho
feito pelos leitores de tela que tentam ler o arquivo pdf (quando
legível).

grato a todos.

-- 
"Não manejo bem as palavras
Mas manipulo bem as strings."
------------------------------