[SP-pm] parser pdf

Solli Honorio shonorio at gmail.com
Wed Sep 2 07:41:08 PDT 2009


2009/9/2 jimmy <jimmy.tty em gmail.com>

> On Tue, Sep 01, 2009 at 08:15:29PM -0300, Solli Honorio wrote:
> >    Jimmy,
> saudações Solli,
> >
> >    Você não despertou interesse no público com o teu problema, seria
> legal
> >    você entender o motivo. A mim ficou dúvidas do tipo :
> >    * se ele já tem a solução com o pdftotext e pdftohtml, no que eu posso
> >    ajudar então ?
> buscava orientação de pessoas mais experientes em perl, bom, já consegui
> uma aqui.
>
> >    * o que seria 'uma forma melhor de realizar este tipo de tarefa?', se
> eu
> >    nem entendi qual o problema de ser realizado desta maneira !
> pensei que talvez houvesse módulo/método melhor para fazer esse parser,
> algo que facilitasse o trabalho de converter para texto e ter que
> ficar tratando os textos com regex entre outras coisas, alguns dão muito
> trabalho, mas a sua dúvida até responde a minha, talvez não exista
> maneira melhor de fazer.
>
> >
> >    Sem compreender onde realmente posso ajudar, eu peço para vc dar uma
> >    olhada no CAM::PDF ou no PDF::OCR2. Este último parece meio chato de
> >    instalar, tem até um procedimento
> >    ([1]http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL).
> o CAM::PDF eu testei e não serviu ao caso, vou dar uma olhada no PDF::OCR2.
>
> >
> >    Sinta-se avontade de ir enviando as dúvidas conforme elas forem
> surgindo.
> com certeza, acho que não consegui explicar adequadamente por estar
> bitolado nesse processo, mas você já me ajudou bastante até aqui.
>

Que OS vc está utilizando ? Me informe se você deve, ou não, sucesso na
instalação deste módulo, pois parece que ele é meio chato.


>
> >
> >    Obrigado,
> >
> >    Solli M. Honório
> >
> >    2009/8/26 jimmy <[2]jimmy.tty em gmail.com>
> >
> >      saudações,
> >
> >      preciso retirar certas informações de arquivos no formato pdf e hoje
> >      uso o pdftotext e pdftohtml (para converter para texto e xml
> >      respectivamente), ambos derivados de uma biblioteca chamada poppler
> >      ([3]http://poppler.freedesktop.org/), essas ferramentas fazem uma
> certa
> >      "renderização" do arquivo pdf para texto (os arquivos que manipulam
> >      permitem isso), tornando possível realizar buscas e extrair o texto
> >      desejado. A maioria das outras ferramentas/métodos que testei eram
> muito
> >      inferiores, extraindo apenas o texto num formato "raw" e ilegível.
> >      Cheguei a encontrar um binding da poppler em perl, mas na
> documentação
> >      não vi nada que fizesse o trabalho das ferramentas citadas a cima
> (essa
> >      implementação usa XS, que não conheço quase nada, e não sei se por
> acaso
> >      o
> >      binding gerado herdaria todas as funcionalidades da biblioteca).
> >
> >      alguém conhece e/ou sugere uma forma melhor de realizar este tipo de
> >      tarefa?
> >
> >      uma segunda aplicação seria a conversão para texto para facilitar a
> >      acessibilidade, tenho uma amiga que é deficiente visual e para ela a
> >      conversão para texto (quando possível) é melhor do que o trabalho
> >      feito pelos leitores de tela que tentam ler o arquivo pdf (quando
> >      legível).
> >
> >      grato a todos.
> >      --
> >      "Não manejo bem as palavras
> >      Mas manipulo bem as strings."
> >      ------------------------------
> >      _______________________________________________
> >      SaoPaulo-pm mailing list
> >      [4]SaoPaulo-pm em pm.org
> >      [5]http://mail.pm.org/mailman/listinfo/saopaulo-pm
> >
> >    --
> >    "o animal satisfeito dorme". - Guimarães Rosa
> _______________________________________________
> SaoPaulo-pm mailing list
> SaoPaulo-pm em pm.org
> http://mail.pm.org/mailman/listinfo/saopaulo-pm
>



-- 
"o animal satisfeito dorme". - Guimarães Rosa
-------------- Pr?xima Parte ----------
Um anexo em HTML foi limpo...
URL: <http://mail.pm.org/pipermail/saopaulo-pm/attachments/20090902/78cb8e96/attachment.html>


More information about the SaoPaulo-pm mailing list