[Moscow.pm] Угадать кодировку (перебором)

Anton Yuzhaninov citrin на citrin.ru
Ср Дек 17 07:34:01 PST 2014


On 12/17/14 18:02, Харпалёв Иван wrote:
> Задача в том, чтобы получить текст этой страницы PDF
> <https://yadi.sk/i/3bT0EOEIdSeUp>.
> И проблема именно в кодировках в Perl.
>    из
> my $pdf = CAM::PDF->new($file_name);
> my $text = $pdf->getPageText(1);
>   приезжает скаляр, который не получается заэнкодить в utf8.

Внутри pdf-файла может быть своя таблица перекодировки - ToUnicode

Если данные извелечь не получается, то скорее всего:
- CAM::PDF не умеет использовать ToUnicode map. Можно попробовать поискать 
другой софт для работы с pdf

- В pdf-файле нет ToUnicode, а есть встроенные шрифты и коды символов которые 
подходят только к этим шрифтам. Тогда самый простой пусть извелечения текста - OCR.

В данном файле ToUnicode насколько вижу есть, так что надо чинить CAM::PDF или 
искать что то вместо него.

Немножко информации про извлечение текста из PDF:
http://lists.cairographics.org/archives/cairo/2007-February/009452.html


Подробная информация о списке рассылки Moscow-pm