[SP-pm] parser pdf
jimmy
jimmy.tty at gmail.com
Wed Aug 26 12:01:10 PDT 2009
saudações,
preciso retirar certas informações de arquivos no formato pdf e hoje
uso o pdftotext e pdftohtml (para converter para texto e xml
respectivamente), ambos derivados de uma biblioteca chamada poppler
(http://poppler.freedesktop.org/), essas ferramentas fazem uma certa
"renderização" do arquivo pdf para texto (os arquivos que manipulam
permitem isso), tornando possível realizar buscas e extrair o texto
desejado. A maioria das outras ferramentas/métodos que testei eram muito
inferiores, extraindo apenas o texto num formato "raw" e ilegível.
Cheguei a encontrar um binding da poppler em perl, mas na documentação
não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa
implementação usa XS, que não conheço quase nada, e não sei se por acaso o
binding gerado herdaria todas as funcionalidades da biblioteca).
alguém conhece e/ou sugere uma forma melhor de realizar este tipo de
tarefa?
uma segunda aplicação seria a conversão para texto para facilitar a
acessibilidade, tenho uma amiga que é deficiente visual e para ela a
conversão para texto (quando possível) é melhor do que o trabalho
feito pelos leitores de tela que tentam ler o arquivo pdf (quando
legível).
grato a todos.
--
"Não manejo bem as palavras
Mas manipulo bem as strings."
------------------------------
More information about the SaoPaulo-pm
mailing list