@hirthwork

Тег utf8 в блоге hirthwork

hirthwork
17 Apr 2013
hirthwork

Почему utf8 такое говно? Потому что он функционален:
1. ASCII символы отображаются один в один.
2. Ни один из не-ASCII символов в своём представлении не содержит байта
похожего на ASCII символ
3. Из первого байта всегда можно понять, какой длины вся последовательность
кодирующая символ.

Не понятно только зачем было так неэкономно биты расходовать.

hirthwork
17 Apr 2013
hirthwork

почему utf-8 такое говно?
почему на представление миллиона символов требуется аж до четырёх байт?
почему в первом байте в старшем бите просто не держать признак того что есть
следующий байт?
почему в двухбайтовой последовательности не держать в старшем бите опят же
признак того, что есть третий байт, а всё остальное вычислять как остатот от
деления на 127 + 1?
и аналогично в третьем байте можно держать остаток от деления на 127 * 128 + 1?

Добавить пост

Вы можете выбрать до 10 файлов общим размером не более 10 МБ.
Для форматирования текста используется Markdown.