<div dir="ltr"> Доброго времени могучий MoscowPM!<br><br>Вот столкнулся с необходимостью извлекать таблицы из PDF.<div>Из открытых библиотек с функцией извлечь таблицы из страницы нашёл только</div><div> Питоновскцю <a href="https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/ ">https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/ </a>  только она почему-то склеивает слова? (ну вот нет счастья).</div><div><br></div><div><div>Для ручного извлечения подошло вот это <a href="http://tabula.technology/">http://tabula.technology/</a> и FineReader. Но надо автоматизировать для однотипных PDFок.</div></div><div><br></div><div>Функция PDF_to_text работает в разных утилитах по-разномы...</div><div><span style="color:rgb(51,51,51);font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:15.3333330154419px;font-weight:bold;line-height:20px">CAM::PDF</span>, <span style="color:rgb(51,51,51);font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:15.3333330154419px;font-weight:bold;line-height:20px"> </span><span style="color:rgb(51,51,51);font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:15.3333330154419px;font-weight:bold;line-height:20px">Text::PDF, </span><span style="color:rgb(51,51,51);font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:15.3333330154419px;font-weight:bold;line-height:20px">pdf2xml, </span><span style="color:rgb(51,51,51);font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:15.3333330154419px;font-weight:bold;line-height:20px">Text::FromAny </span><br></div><div><font color="#333333" face="Helvetica Neue, Helvetica, Arial, sans-serif"><span style="font-size:15.1999998092651px;line-height:20px">все по-разному укладывают табличу в строки (особенно, когда есть многострочные ячейки)</span></font></div><div><font color="#333333" face="Helvetica Neue, Helvetica, Arial, sans-serif"><span style="font-size:15.1999998092651px;line-height:20px"><br></span></font></div><div><font color="#333333" face="Helvetica Neue, Helvetica, Arial, sans-serif"><span style="font-size:15.1999998092651px;line-height:20px">Как же извлекать таблички из PDF? Как сделать это на Perl, или из него?</span></font></div><div><br></div></div>