[Moscow.pm] Угадать кодировку (перебором)

Харпалёв Иван ivan.kharpalev на gmail.com
Ср Дек 17 07:02:32 PST 2014


Задача в том, чтобы получить текст этой страницы PDF
<https://yadi.sk/i/3bT0EOEIdSeUp>.
И проблема именно в кодировках в Perl.
  из
my $pdf = CAM::PDF->new($file_name);
my $text = $pdf->getPageText(1);
 приезжает скаляр, который не получается заэнкодить в utf8.

16 декабря 2014 г., 22:29 пользователь Nikolay Mishin <mi на ya.ru> написал:
>
> Иван, может дашь этот pdf, самому попробовать и расскажешь задачу?
> Я пока не очень понимаю, что нужно
>
> 16.12.2014, 19:43, "Харпалёв Иван" <ivan.kharpalev на gmail.com>:
> > А что значит "неведомо в какой кодировке"?
> > Ведь у Perl вроде может быть только информация utf8 или нет. О других
> > кодировках вроде же нигде не хранится инфа.. или хранится?
> >
> > 8 декабря 2014 г., 21:44 пользователь Алексей Мышкин
> > <parserpro на gmail.com> написал:
> >>  Эта строка мало что без флага, так и ещё в какой-то неведомой
> кодировке,
> >>  иначе линукс консоль отображала бы её в читабельном виде.
> >>
> >>  08 дек. 2014 г. 22:41 пользователь "Харпалёв Иван"
> >>  <ivan.kharpalev на gmail.com> написал:
> >>>  Есть строка, без флага utf8.
> >>>  Utf8-консоль отображает строку зюками.
> >>>  decode("Detect", $data); не угадывает.
> >>>
> >>>  Как правильно перевести в utf8?
> >>>
> >>>  Где взять массив всех возможных ENCODING, чтобы переводить из них в
> utf8 и
> >>>  смотреть, угадали или нет?
> >>>  в pod Encode::Supported как получить массив не вижу.
> >>>
> >>>  Вроде насущна проблема,
> >>>  как такое делать?
> >>>
> >>>  Спасибо!
> >>>
> >>>  --
> >>>  Moscow.pm mailing list
> >>>  moscow-pm на pm.org | http://moscow.pm.org
> >>  --
> >>  Moscow.pm mailing list
> >>  moscow-pm на pm.org | http://moscow.pm.org
> >
> > --
> > Moscow.pm mailing list
> > moscow-pm на pm.org | http://moscow.pm.org
>
> --
> С уважением
> Николай Мишин
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
----------- следущая часть -----------
Вложение в формате HTML было извлечено…
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20141217/a116b681/attachment.html>


Подробная информация о списке рассылки Moscow-pm