<p dir="ltr">Tenta usar o PDF reuse </p>
<div class="gmail_quote">On Sep 23, 2014 1:37 AM, "Blabos de Blebe" <<a href="mailto:blabos@gmail.com">blabos@gmail.com</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Pessoas,<div><br></div><div>Eu estou com um PDF periódico (a cada x tempos eu tenho uma novo pdf), de umas 400 páginas, e preciso separá-lo em vários documentos.</div><div><br></div><div>Existem umas páginas que tem um texto que serve de marcador tipo, 'FIM_DESTA_PARTE' e eu posso usá-las como separador.</div><div><br></div><div>O problema dessa bagaça é que o PDF é mal formado, e isso é uma premissa, não um pressuposto, certo maluco?</div><div><br></div><div>Ele é assim, eu não tenho controle sobre isso e fim de papo.</div><div><br></div><div>Ao tentar abrir com o CAM::PDF eu recebo o seguinte erro:</div><div><br></div><div><div>substr outside of string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.</div><div>Use of uninitialized value in string eq at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.</div><div>substr outside of string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 717.</div><div>Use of uninitialized value $content[0] in join or string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 728.</div><div>Expected object open tag</div><div>0 (empty)</div></div><div><br></div><div>Ao tentar abrir com o PDF::API2 eu recebo o seguinte erro:</div><div><br></div><div>Malformed xref in PDF file  at /home/blabos/workspace/pdf/local/lib/perl5/PDF/API2/Basic/PDF/File.pm line 1051.<br></div><div><br></div><div>***</div><div><br></div><div>Por fim, consegui fazer o que eu queria combinando o programa pdfgrep (que usa uma lib chamada poppler) com o módulo PDF::Extract.</div><div><br></div><div>Só que basicamente a minha solução foi um "shell script com esteróides" e eu não estou lá muito confiante que isso vá funcionar com os próximos PDFs que eu vou receber.</div><div><br></div><div>Gostaria de saber se vocês tem alguma dica de como tornar isso mais robusto, sem ter que escrever código em C ou C++.</div><div><br></div><div>Confesso que até estou pensando em usar a poppler, pois com ela não só o arquivo zuado abre como eu consigo acesso a todo o conteúdo textual.</div><div><br></div><div>O binding que tem no CPAN (<a href="https://metacpan.org/pod/Poppler" target="_blank">https://metacpan.org/pod/Poppler</a>) também não me deixou muito animado não.</div><div><br></div><div>Alguma ideia?</div><div><br></div><div>[]'s</div><div><br></div></div>
<br>=begin disclaimer<br>
   Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>
 SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>
 L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a>><br>
=end disclaimer<br>
<br></blockquote></div>