<br><br><div class="gmail_quote">2009/9/2 jimmy <span dir="ltr">&lt;<a href="mailto:jimmy.tty@gmail.com">jimmy.tty@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">


On Tue, Sep 01, 2009 at 08:15:29PM -0300, Solli Honorio wrote:<br>

&gt;    Jimmy,<br>

saudações Solli,<br>

<div class="im">&gt;<br>

&gt;    Você não despertou interesse no público com o teu problema, seria legal<br>

&gt;    você entender o motivo. A mim ficou dúvidas do tipo :<br>

&gt;    * se ele já tem a solução com o pdftotext e pdftohtml, no que eu posso<br>

&gt;    ajudar então ?<br>

</div>buscava orientação de pessoas mais experientes em perl, bom, já consegui<br>

uma aqui.<br>

<div class="im"><br>

&gt;    * o que seria &#39;uma forma melhor de realizar este tipo de tarefa?&#39;, se eu<br>

&gt;    nem entendi qual o problema de ser realizado desta maneira !<br>

</div>pensei que talvez houvesse módulo/método melhor para fazer esse parser,<br>

algo que facilitasse o trabalho de converter para texto e ter que<br>

ficar tratando os textos com regex entre outras coisas, alguns dão muito<br>

trabalho, mas a sua dúvida até responde a minha, talvez não exista<br>

maneira melhor de fazer.<br>

<div class="im"><br>

&gt;<br>

&gt;    Sem compreender onde realmente posso ajudar, eu peço para vc dar uma<br>

&gt;    olhada no CAM::PDF ou no PDF::OCR2. Este último parece meio chato de<br>

&gt;    instalar, tem até um procedimento<br>

</div>&gt;    ([1]<a href="http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL" target="_blank">http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL</a>).<br>

o CAM::PDF eu testei e não serviu ao caso, vou dar uma olhada no PDF::OCR2.<br>

<div class="im"><br>

&gt;<br>

&gt;    Sinta-se avontade de ir enviando as dúvidas conforme elas forem surgindo.<br>

</div>com certeza, acho que não consegui explicar adequadamente por estar<br>

bitolado nesse processo, mas você já me ajudou bastante até aqui.<br></blockquote><div><br>Que OS vc está utilizando ? Me informe se você deve, ou não, sucesso na instalação deste módulo, pois parece que ele é meio chato.<br>


 <br></div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">

<br>

&gt;<br>

&gt;    Obrigado,<br>

&gt;<br>

&gt;    Solli M. Honório<br>

&gt;<br>

&gt;    2009/8/26 jimmy &lt;[2]<a href="mailto:jimmy.tty@gmail.com">jimmy.tty@gmail.com</a>&gt;<br>

<div class="im">&gt;<br>

&gt;      saudações,<br>

&gt;<br>

&gt;      preciso retirar certas informações de arquivos no formato pdf e hoje<br>

&gt;      uso o pdftotext e pdftohtml (para converter para texto e xml<br>

&gt;      respectivamente), ambos derivados de uma biblioteca chamada poppler<br>

</div>&gt;      ([3]<a href="http://poppler.freedesktop.org/" target="_blank">http://poppler.freedesktop.org/</a>), essas ferramentas fazem uma certa<br>

<div class="im">&gt;      &quot;renderização&quot; do arquivo pdf para texto (os arquivos que manipulam<br>

&gt;      permitem isso), tornando possível realizar buscas e extrair o texto<br>

&gt;      desejado. A maioria das outras ferramentas/métodos que testei eram muito<br>

&gt;      inferiores, extraindo apenas o texto num formato &quot;raw&quot; e ilegível.<br>

&gt;      Cheguei a encontrar um binding da poppler em perl, mas na documentação<br>

&gt;      não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa<br>

&gt;      implementação usa XS, que não conheço quase nada, e não sei se por acaso<br>

&gt;      o<br>

&gt;      binding gerado herdaria todas as funcionalidades da biblioteca).<br>

&gt;<br>

&gt;      alguém conhece e/ou sugere uma forma melhor de realizar este tipo de<br>

&gt;      tarefa?<br>

&gt;<br>

&gt;      uma segunda aplicação seria a conversão para texto para facilitar a<br>

&gt;      acessibilidade, tenho uma amiga que é deficiente visual e para ela a<br>

&gt;      conversão para texto (quando possível) é melhor do que o trabalho<br>

&gt;      feito pelos leitores de tela que tentam ler o arquivo pdf (quando<br>

&gt;      legível).<br>

&gt;<br>

&gt;      grato a todos.<br>

&gt;      --<br>

&gt;      &quot;Não manejo bem as palavras<br>

&gt;      Mas manipulo bem as strings.&quot;<br>

&gt;      ------------------------------<br>

&gt;      _______________________________________________<br>

&gt;      SaoPaulo-pm mailing list<br>

</div>&gt;      [4]<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>

&gt;      [5]<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br>

<div><div></div><div class="h5">&gt;<br>

&gt;    --<br>

&gt;    &quot;o animal satisfeito dorme&quot;. - Guimarães Rosa<br>

_______________________________________________<br>

SaoPaulo-pm mailing list<br>

<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>

<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br>

</div></div></blockquote></div><br><br clear="all"><br>-- <br>&quot;o animal satisfeito dorme&quot;. - Guimarães Rosa<br>