[SP-pm] parser pdf

Wed Sep 2 06:28:05 PDT 2009

On Tue, Sep 01, 2009 at 08:15:29PM -0300, Solli Honorio wrote:
>    Jimmy,
saudações Solli,
> 
>    Você não despertou interesse no público com o teu problema, seria legal
>    você entender o motivo. A mim ficou dúvidas do tipo :
>    * se ele já tem a solução com o pdftotext e pdftohtml, no que eu posso
>    ajudar então ?
buscava orientação de pessoas mais experientes em perl, bom, já consegui
uma aqui.

>    * o que seria 'uma forma melhor de realizar este tipo de tarefa?', se eu
>    nem entendi qual o problema de ser realizado desta maneira !
pensei que talvez houvesse módulo/método melhor para fazer esse parser,
algo que facilitasse o trabalho de converter para texto e ter que
ficar tratando os textos com regex entre outras coisas, alguns dão muito
trabalho, mas a sua dúvida até responde a minha, talvez não exista
maneira melhor de fazer.

> 
>    Sem compreender onde realmente posso ajudar, eu peço para vc dar uma
>    olhada no CAM::PDF ou no PDF::OCR2. Este último parece meio chato de
>    instalar, tem até um procedimento
>    ([1]http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL).
o CAM::PDF eu testei e não serviu ao caso, vou dar uma olhada no PDF::OCR2.

> 
>    Sinta-se avontade de ir enviando as dúvidas conforme elas forem surgindo.
com certeza, acho que não consegui explicar adequadamente por estar
bitolado nesse processo, mas você já me ajudou bastante até aqui.

> 
>    Obrigado,
> 
>    Solli M. Honório
> 
>    2009/8/26 jimmy <[2]jimmy.tty em gmail.com>
> 
>      saudações,
> 
>      preciso retirar certas informações de arquivos no formato pdf e hoje
>      uso o pdftotext e pdftohtml (para converter para texto e xml
>      respectivamente), ambos derivados de uma biblioteca chamada poppler
>      ([3]http://poppler.freedesktop.org/), essas ferramentas fazem uma certa
>      "renderização" do arquivo pdf para texto (os arquivos que manipulam
>      permitem isso), tornando possível realizar buscas e extrair o texto
>      desejado. A maioria das outras ferramentas/métodos que testei eram muito
>      inferiores, extraindo apenas o texto num formato "raw" e ilegível.
>      Cheguei a encontrar um binding da poppler em perl, mas na documentação
>      não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa
>      implementação usa XS, que não conheço quase nada, e não sei se por acaso
>      o
>      binding gerado herdaria todas as funcionalidades da biblioteca).
> 
>      alguém conhece e/ou sugere uma forma melhor de realizar este tipo de
>      tarefa?
> 
>      uma segunda aplicação seria a conversão para texto para facilitar a
>      acessibilidade, tenho uma amiga que é deficiente visual e para ela a
>      conversão para texto (quando possível) é melhor do que o trabalho
>      feito pelos leitores de tela que tentam ler o arquivo pdf (quando
>      legível).
> 
>      grato a todos.
>      --
>      "Não manejo bem as palavras
>      Mas manipulo bem as strings."
>      ------------------------------
>      _______________________________________________
>      SaoPaulo-pm mailing list
>      [4]SaoPaulo-pm em pm.org
>      [5]http://mail.pm.org/mailman/listinfo/saopaulo-pm
> 
>    --
>    "o animal satisfeito dorme". - Guimarães Rosa