[Moscow.pm] Extract tables from PDF

Харпалёв Иван ivan.kharpalev на gmail.com
Вт Дек 2 03:07:15 PST 2014


 Доброго времени могучий MoscowPM!

Вот столкнулся с необходимостью извлекать таблицы из PDF.
Из открытых библиотек с функцией извлечь таблицы из страницы нашёл только
 Питоновскцю
https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/
только она почему-то склеивает слова? (ну вот нет счастья).

Для ручного извлечения подошло вот это http://tabula.technology/ и
FineReader. Но надо автоматизировать для однотипных PDFок.

Функция PDF_to_text работает в разных утилитах по-разномы...
CAM::PDF,  Text::PDF, pdf2xml, Text::FromAny
все по-разному укладывают табличу в строки (особенно, когда есть
многострочные ячейки)

Как же извлекать таблички из PDF? Как сделать это на Perl, или из него?
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20141202/b70d20db/attachment.html>


Подробная информация о списке рассылки Moscow-pm