[Moscow.pm] Угадать кодировку (перебором)
Anton Yuzhaninov
citrin на citrin.ru
Ср Дек 17 07:34:01 PST 2014
On 12/17/14 18:02, Харпалёв Иван wrote:
> Задача в том, чтобы получить текст этой страницы PDF
> <https://yadi.sk/i/3bT0EOEIdSeUp>.
> И проблема именно в кодировках в Perl.
> из
> my $pdf = CAM::PDF->new($file_name);
> my $text = $pdf->getPageText(1);
> приезжает скаляр, который не получается заэнкодить в utf8.
Внутри pdf-файла может быть своя таблица перекодировки - ToUnicode
Если данные извелечь не получается, то скорее всего:
- CAM::PDF не умеет использовать ToUnicode map. Можно попробовать поискать
другой софт для работы с pdf
- В pdf-файле нет ToUnicode, а есть встроенные шрифты и коды символов которые
подходят только к этим шрифтам. Тогда самый простой пусть извелечения текста - OCR.
В данном файле ToUnicode насколько вижу есть, так что надо чинить CAM::PDF или
искать что то вместо него.
Немножко информации про извлечение текста из PDF:
http://lists.cairographics.org/archives/cairo/2007-February/009452.html
Подробная информация о списке рассылки Moscow-pm