<div dir="ltr">Pessoas,<div><br></div><div>Eu estou com um PDF periódico (a cada x tempos eu tenho uma novo pdf), de umas 400 páginas, e preciso separá-lo em vários documentos.</div><div><br></div><div>Existem umas páginas que tem um texto que serve de marcador tipo, 'FIM_DESTA_PARTE' e eu posso usá-las como separador.</div><div><br></div><div>O problema dessa bagaça é que o PDF é mal formado, e isso é uma premissa, não um pressuposto, certo maluco?</div><div><br></div><div>Ele é assim, eu não tenho controle sobre isso e fim de papo.</div><div><br></div><div>Ao tentar abrir com o CAM::PDF eu recebo o seguinte erro:</div><div><br></div><div><div>substr outside of string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.</div><div>Use of uninitialized value in string eq at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.</div><div>substr outside of string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 717.</div><div>Use of uninitialized value $content[0] in join or string at /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 728.</div><div>Expected object open tag</div><div>0 (empty)</div></div><div><br></div><div>Ao tentar abrir com o PDF::API2 eu recebo o seguinte erro:</div><div><br></div><div>Malformed xref in PDF file  at /home/blabos/workspace/pdf/local/lib/perl5/PDF/API2/Basic/PDF/File.pm line 1051.<br></div><div><br></div><div>***</div><div><br></div><div>Por fim, consegui fazer o que eu queria combinando o programa pdfgrep (que usa uma lib chamada poppler) com o módulo PDF::Extract.</div><div><br></div><div>Só que basicamente a minha solução foi um "shell script com esteróides" e eu não estou lá muito confiante que isso vá funcionar com os próximos PDFs que eu vou receber.</div><div><br></div><div>Gostaria de saber se vocês tem alguma dica de como tornar isso mais robusto, sem ter que escrever código em C ou C++.</div><div><br></div><div>Confesso que até estou pensando em usar a poppler, pois com ela não só o arquivo zuado abre como eu consigo acesso a todo o conteúdo textual.</div><div><br></div><div>O binding que tem no CPAN (<a href="https://metacpan.org/pod/Poppler">https://metacpan.org/pod/Poppler</a>) também não me deixou muito animado não.</div><div><br></div><div>Alguma ideia?</div><div><br></div><div>[]'s</div><div><br></div></div>