[Moscow.pm] определение кодировки файла

Ruslan Zakirov ruz на bestpractical.com
Ср Июн 4 02:08:53 PDT 2008


Есть всем известный детектор в mozilla based браузерах. Про него есть
пару статей:
* http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html
- теория и анализ эффективности
* http://www.mozilla.org/projects/intl/ChardetInterface.htm - краткое
описание библиотеки

Порты:
* java - http://www.chatnsearch.com/chardet.html
* python - http://chardet.feedparser.org/
* perl - ???

Для перла нет, но можно портировать, есть примеры на нескольких языках.

2008/6/3 Павел Тимонин <gg.error на gmail.com>:
> Товарищи, как мне определить кодировку входящего файла? Я получаю его как
> параметр в POST-запросе, и не знаю заранее в какой он кодировке. Программа
> работает в utf8.
>
> я знаю про use Encode, и знаю как из любой кодировки сделать utf8, но не
> знаю как определить :) копания в самом Encode не помогли моему пониманию.
> хотел проверить функцию getEncoding, но она не работает. компилятор ругается
> что ему не хватает Encoding::Alias, хотя он на месте. я его подключал (хотя
> в Encode.pm в этой функции он подключается через require), всё равно не
> работает.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>
>



-- 
Best regards, Ruslan.


Подробная информация о списке рассылки Moscow-pm