[Moscow.pm] Unicode. Ликбез

Dmitry Arsentiev dmarsentev на gmail.com
Пт Фев 17 04:24:45 PST 2012


Спасибо вам за этот пост, Александр.
Ну, помню, шутка такая была: "У вас была головная боль с обработкой текстов
и вы решили использовать регулярные выражения? Поздравляем, теперь у
вас две головных боли!"
Про Unicode похоже.
Мне кажется, каждый разработчик не может быть экспертом в Unicode.
Такие проблемы решаются следующим образом:
из среды выдвигается герой (или группа героев),
БЕРЁТ НА СЕБЯ ОТВЕТСТВЕННОСТЬ и делает всем
приемлемо удобно на приемлемо понятном уровне на ближайшие несколько лет.
Потом ситуация повторяется.
Бардак -> Общественный запрос-> Герой -> Новый порядок.
Сейчас такой герой - Кристиансен? Замечательно.
Это очень хорошо, потому что он хороший объясняльщик.
Ну невозможно всё исследовать и изучать самому.
Нужно, чтобы кто-то вышел и сказал: я три литра крови пролил в боях с юникодом,
и вот что я вам скажу, пацаны: ДЕЛАЙТЕ КАК Я ГОВОРЮ, $!$^$^ вашу ***** !!!!!!.

Ну вот. Ваш пост - это предупреждение о том, что не всё просто и с
юникодом сплошная засада.
Много предположительно полезных и очень полезных ссылок. Особенно про
Си и Юникод.
Спасибо вам.

В копилку ссылок: есть две книжки, примыкающие к Unicode, кодировкам и
т.д. с разных сторон.
Они - не самая-самая истина в самой-самой последней инстанции вот
прям-прям совсем,
но в них очень много хорошего понапихано очень-очень по делу.

1) Fonts & Encodings
From Advanced Typography to Unicode and Everything in Between
By Yannis Haralambous
http://shop.oreilly.com/product/9780596102425.do

2) CJKV Information Processing, 2nd Edition
By Ken Lunde
http://shop.oreilly.com/product/9780596514471.do



17 февраля 2012 г. 15:47 пользователь Orlovsky Alexander
<nordicdyno на yandex.ru> написал:
> Ссылки уже все исправил - это была моя ошибка. Открытые ранее страницы нужно рефрешнуть в браузере с очисткой кеша (Ctrl + R), чтобы они обновились.
>
> Врезка неудачная (как и фраза, возможно) - убрал из врезки. Вообще с форматированием я еще не вполне освоился и возможны косяки, как следствие переноса текстов в новое оформление. Фраза относится, конечно, к utf-8
>
> NFD относится к модулю Unicode::Normalize, который экспортирует его по-умолчанию. Но я изменил код, чтобы было понятнее, откуда он появился.
>
> Спасибо за отзыв!
>
> 17.02.2012, 15:11, "Dmitry Arsentiev" <dmarsentev на gmail.com>:
>> Александр, кликаю в тексте поста на эту ссылку, а она ведёт опять на ваш блог.
>> http://en.wikipedia.org/wiki/UTF-EBCDIC
>>
>> Кроме того, непонятно, к чему относится надпись во врезке:
>> Самая "православная" кодировка
>> ?
>> К кодировке UTF-8 или к кодировке UTF-EBCDIC ?
>>
>> Ещё вопрос. Вот строка:
>> $str = NFD($str);
>> Из какого модуля функция NFD?
>> Или это самописная ваша функция, исходный код которой вы по каким-то
>> причинам решили не показывать?
>>
>> 17 февраля 2012 г. 13:43 пользователь Orlovsky Alexander
>> <nordicdyno на yandex.ru> написал:
>>
>>>  Я тут себе IT-бложик завел, заодно, кроме всего прочего, опубликовал там текст на основе моего декабрьского доклада на Saint Perl "Unicode. Ликбез":
>>>  http://nordicdyno.github.com/blog/2012/02/17/unicode-basics/
>>>
>>>  Буду рад любым комментариям, лайкам, +1 и т. д. )
>>>  Критику лучше пишите в рассыку, постараюсь исправить недочеты, если они есть ) (на пулл-реквесты не расчитываю :)
>>>  Слайды особенной ценности не представляют, но тоже могу выложить, если кому-то нужно.
>>>
>>>  З.Ы.
>>>  В блоге пока нет отдельного RSS-потока по Perl, но на этих выходных постараюсь его прикрутить (пока только осваиваю Octopress).
>>>  --
>>>  Moscow.pm mailing list
>>>  moscow-pm на pm.org | http://moscow.pm.org
>> --
>> Moscow.pm mailing list
>> moscow-pm на pm.org | http://moscow.pm.org
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org


Подробная информация о списке рассылки Moscow-pm