[Moscow.pm] Угадать кодировку (перебором)

Харпалёв Иван ivan.kharpalev на gmail.com
Вт Дек 16 07:01:28 PST 2014


Огромное спасибо, товарищи!
попробовал всё, что вы посоветовали.

Но увы даже
my $pdf = CAM::PDF->new($file_name);
my $text = $pdf->getPageText(1);

for my $encoding (Encode->encodings(q{:all})) {
     say decode($encoding, $text);
 }
не вывело в utf8-консоль нормальные символы сербского алфавита ((


Nikolay Mishin, в приложении строчка, выведенная, как
open my $out_fh, ">serbian_raw.data" or die;
binmode $out_fh;
print $out_fh $text;


При копировании символов в терминал из pdf они отображаются нормально.
Дело где-то в Perl.

Может ли не быть в Encode->encodings(q{:all}) кодировки, нужной для
данного случая (Сербский язык)? Там вообще станные названия (уж
слишком много начинается со слова Mac, видимо encodings(q{:all}) не
везде одинаковый)

Спасибо!


И ещё вопрос:
когда пишут   "$bytes = encode('cp1251', $string); # перекодировали
строку из внутреннего представления в cp1251", --- то "внутренний
формат" -- это всегда UTF8?







10 декабря 2014 г., 11:50 пользователь TheAthlete <theathlet на yandex.ru> написал:
> https://metacpan.org/pod/Lingua::RU::Detect
> https://metacpan.org/pod/Encode::Detect
> https://metacpan.org/pod/Encode::Multibyte::Detect
> https://metacpan.org/pod/Encode::Detective
> https://metacpan.org/pod/Term::Encoding
>
> Харпалёв Иван <ivan.kharpalev на gmail.com> писал(а) в своём письме Mon, 08 Dec
> 2014 21:40:38 +0300:
>
>> Есть строка, без флага utf8.
>> Utf8-консоль отображает строку зюками.
>> decode("Detect", $data); не угадывает.
>>
>> Как правильно перевести в utf8?
>>
>> Где взять массив всех возможных ENCODING, чтобы переводить из них в utf8 и
>> смотреть, угадали или нет?
>> в pod Encode::Supported
>> <https://metacpan.org/pod/distribution/Encode/lib/Encode/Supported.pod>
>> как
>> получить массив не вижу.
>>
>> Вроде насущна проблема,
>> как такое делать?
>>
>> Спасибо!
>
>
>
> --
> Написано в почтовом клиенте браузера Opera: http://www.opera.com/mail/
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
----------- следущая часть -----------
A non-text attachment was scrubbed...
Name: serbian_raw.data
Type: application/octet-stream
Size: 119 bytes
Desc: отсутствует
URL: <http://mail.pm.org/pipermail/moscow-pm/attachments/20141216/3e946dd9/attachment.obj>


Подробная информация о списке рассылки Moscow-pm