[SP-pm] Split de PDF

Daniel de Oliveira Mantovani daniel.oliveira.mantovani at gmail.com
Tue Sep 23 07:14:00 PDT 2014


Blabos,

https://pdfbox.apache.org/

2014-09-23 7:01 GMT-03:00 Renato Santos <renato.cron at gmail.com>:
> Tenta usar o PDF reuse
>
> On Sep 23, 2014 1:37 AM, "Blabos de Blebe" <blabos at gmail.com> wrote:
>>
>> Pessoas,
>>
>> Eu estou com um PDF periódico (a cada x tempos eu tenho uma novo pdf), de
>> umas 400 páginas, e preciso separá-lo em vários documentos.
>>
>> Existem umas páginas que tem um texto que serve de marcador tipo,
>> 'FIM_DESTA_PARTE' e eu posso usá-las como separador.
>>
>> O problema dessa bagaça é que o PDF é mal formado, e isso é uma premissa,
>> não um pressuposto, certo maluco?
>>
>> Ele é assim, eu não tenho controle sobre isso e fim de papo.
>>
>> Ao tentar abrir com o CAM::PDF eu recebo o seguinte erro:
>>
>> substr outside of string at
>> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.
>> Use of uninitialized value in string eq at
>> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 575.
>> substr outside of string at
>> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 717.
>> Use of uninitialized value $content[0] in join or string at
>> /home/blabos/workspace/pdf/local/lib/perl5/CAM/PDF.pm line 728.
>> Expected object open tag
>> 0 (empty)
>>
>> Ao tentar abrir com o PDF::API2 eu recebo o seguinte erro:
>>
>> Malformed xref in PDF file  at
>> /home/blabos/workspace/pdf/local/lib/perl5/PDF/API2/Basic/PDF/File.pm line
>> 1051.
>>
>> ***
>>
>> Por fim, consegui fazer o que eu queria combinando o programa pdfgrep (que
>> usa uma lib chamada poppler) com o módulo PDF::Extract.
>>
>> Só que basicamente a minha solução foi um "shell script com esteróides" e
>> eu não estou lá muito confiante que isso vá funcionar com os próximos PDFs
>> que eu vou receber.
>>
>> Gostaria de saber se vocês tem alguma dica de como tornar isso mais
>> robusto, sem ter que escrever código em C ou C++.
>>
>> Confesso que até estou pensando em usar a poppler, pois com ela não só o
>> arquivo zuado abre como eu consigo acesso a todo o conteúdo textual.
>>
>> O binding que tem no CPAN (https://metacpan.org/pod/Poppler) também não me
>> deixou muito animado não.
>>
>> Alguma ideia?
>>
>> []'s
>>
>>
>> =begin disclaimer
>>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
>> =end disclaimer
>>
>
> =begin disclaimer
>    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: SaoPaulo-pm at pm.org
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>



-- 

-dom

--

Daniel de Oliveira Mantovani
Business Analytic Specialist
Perl Evangelist /Astrophysics hobbyist.
+55 11 9 8538-9897
XOXO


More information about the SaoPaulo-pm mailing list