<span style="font-family: courier new,monospace;">Jimmy,</span><br style="font-family: courier new,monospace;"><br style="font-family: courier new,monospace;"><span style="font-family: courier new,monospace;">Você não despertou interesse no público com o teu problema, seria legal você entender o motivo. A mim ficou dúvidas do tipo :</span><br style="font-family: courier new,monospace;">


<span style="font-family: courier new,monospace;">* se ele já tem a solução com o pdftotext e pdftohtml, no que eu posso ajudar então ?</span><br style="font-family: courier new,monospace;"><span style="font-family: courier new,monospace;">* o que seria &#39;uma forma melhor de realizar este tipo de tarefa?&#39;, se eu nem entendi qual o problema de ser realizado desta maneira !</span><br style="font-family: courier new,monospace;">


<br style="font-family: courier new,monospace;"><span style="font-family: courier new,monospace;">Sem compreender onde realmente posso ajudar, eu peço para vc dar uma olhada no CAM::PDF ou no   PDF::OCR2. Este último parece meio chato de instalar, tem até um procedimento (<a href="http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL">http://cpansearch.perl.org/src/LEOCHARRE/PDF-OCR2-1.20/INSTALL</a>).</span><br style="font-family: courier new,monospace;">


<br style="font-family: courier new,monospace;"><span style="font-family: courier new,monospace;">Sinta-se avontade de ir enviando as dúvidas conforme elas forem surgindo.<br><br>Obrigado,<br><br>Solli M. Honório<br style="font-family: courier new,monospace;">


</span><br style="font-family: courier new,monospace;"><br style="font-family: courier new,monospace;"><br style="font-family: courier new,monospace;"><div class="gmail_quote">2009/8/26 jimmy <span dir="ltr">&lt;<a href="mailto:jimmy.tty@gmail.com">jimmy.tty@gmail.com</a>&gt;</span><br>


<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">saudações,<br>

<br>

preciso retirar certas informações de arquivos no formato pdf e hoje<br>

uso o pdftotext e pdftohtml (para converter para texto e xml<br>

respectivamente), ambos derivados de uma biblioteca chamada poppler<br>

(<a href="http://poppler.freedesktop.org/" target="_blank">http://poppler.freedesktop.org/</a>), essas ferramentas fazem uma certa<br>

&quot;renderização&quot; do arquivo pdf para texto (os arquivos que manipulam<br>

permitem isso), tornando possível realizar buscas e extrair o texto<br>

desejado. A maioria das outras ferramentas/métodos que testei eram muito<br>

inferiores, extraindo apenas o texto num formato &quot;raw&quot; e ilegível.<br>

Cheguei a encontrar um binding da poppler em perl, mas na documentação<br>

não vi nada que fizesse o trabalho das ferramentas citadas a cima (essa<br>

implementação usa XS, que não conheço quase nada, e não sei se por acaso o<br>

binding gerado herdaria todas as funcionalidades da biblioteca).<br>

<br>

alguém conhece e/ou sugere uma forma melhor de realizar este tipo de<br>

tarefa?<br>

<br>

uma segunda aplicação seria a conversão para texto para facilitar a<br>

acessibilidade, tenho uma amiga que é deficiente visual e para ela a<br>

conversão para texto (quando possível) é melhor do que o trabalho<br>

feito pelos leitores de tela que tentam ler o arquivo pdf (quando<br>

legível).<br>

<br>

grato a todos.<br>

<font color="#888888"><br>

--<br>

&quot;Não manejo bem as palavras<br>

Mas manipulo bem as strings.&quot;<br>

------------------------------<br>

_______________________________________________<br>

SaoPaulo-pm mailing list<br>

<a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>

<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a><br>

</font></blockquote></div><br><br clear="all"><br>-- <br>&quot;o animal satisfeito dorme&quot;. - Guimarães Rosa<br>