Ханьское объединение

Пример ханьской стандартизации: идеограммав сокращениях, традиционные символы, кандзи и ханджа (слева направо)

Термин Han Unification ( англ. Ханьское объединение ) означает объединение Китая в компьютерных науках Hanzi , японском кандзи и корейском Hanja ( CJD ), реже - в вьетнамском Chữnôm , в шрифте, называемом. Этот термин в основном используется в связи с Unicode и проводимой там стандартизацией Han.

Идея объединения различных сценариев ханьского алфавита в один набор символов не нова - еще в 1980 году Код китайских символов для обмена информацией (CCCII) представлял собой набор символов, в котором сочетались сокращения, традиционные символы и иероглифы. Этой идее последовали и при разработке стандарта Unicode. В феврале 1990 года была основана группа CJK-IRG , специализирующаяся на ханьской стандартизации . Чуть позже эта группа была переименована в IRG .

Когда Китай объявил о разработке нового набора символов, GB 13000, Unicode и Китай договорились совместно разработать набор символов Han.

Унификация хань в Unicode

Таблица в виде графика

Группа идеографического докладчика (IRG) отвечает за стандартизацию Han в Unicode, которая проверяет все предложения кодирования и находит символы, которые можно комбинировать. Стандартизация в Unicode следует строгим правилам:

  • Чтобы упростить преобразование из старых наборов символов в Unicode, для 20 902 символов первой версии Unicode использовалось правило разделения источников , которое гласит, что две идеограммы, которые различаются в более старом наборе символов, также различаются в Unicode. Это правило больше не используется для кодированных позже идеограмм CJK.
  • Если идеограммы не связаны в историческом смысле, они также не едины. Это применимо, например, Б. к иероглифам(земля) и(воин), которые похожи друг на друга, но имеют совершенно разные значения и происхождение.

Затем идеограммы разбиваются на отдельные строки. Затем определяется количество и положение полосок, структура, кодировка в старом наборе символов и радикал символов. Если все одинаково, знаки едины, иначе нет.

В большинстве случаев символы упрощаются, если только они выглядят по-разному в разных стилях письма китайского письма. Например, радикал(как радикал) пишется в документе с одной или двумя верхними точками. Однако в обычном шрифте и почерке этот символ везде имеет только одну точку. Это похоже на радикал, который по- прежнему пишется какв классическом печатном письме ( Мин ), но пишется礻 от руки и обычным шрифтом. Поскольку после реформ письма в Китайской Народной Республике и Японии были предприняты попытки адаптировать шрифт к почерку, в Корее совсем не было и ограничено в Тайване, эти различия имеют место.

В следующей таблице показано различное представление символа в строке для разных шрифтов CJK (китайский без дополнительной информации для отображения в браузере; китайские сокращения, используемые в Китайской Народной Республике, Сингапуре и Малайзии; китайские традиционные символы, как в Китайской Республике (Тайвань) , Гонконг и Макао; японский; корейский), что обусловлено соответствующими характеристиками шрифта. Они могут определяться порядком линий, количеством линий или направлением. Для правильной работы должны быть установлены соответствующие шрифты, и браузер должен выбрать подходящий. Если это не так, вы также можете посмотреть рисунок справа.

код Китайский
(общий)
Китайские
сокращения

Традиционные китайские иероглифы
Японский корейский язык
U + 4E0E
U + 4ECA
U + 4EE4
U + 514D
U + 5165
U + 5168
U + 5177
U + 5203
U + 5316
U + 5340
U + 5916
U + 60C5
U + 624D
U + 6B21
U + 6D77
U + 6F22
U + 753B
U + 76F4
U + 771F
U + 7A7A
U + 7D00
U + 8349
U + 89D2
U + 8ACB
U + 9053
U + 9913
U + 9AA8

С другой стороны, отдельные варианты символов также были отдельно включены в Unicode, что показано в качестве примера в следующей таблице:

код Китайский
(общий)
Китайские
сокращения

Традиционные китайские иероглифы
Японский корейский язык
U + 9AD8
U + 9AD9
U + 7D05
U + 7EA2
U + 4E1F
U + 4E22
U + 4E57
U + 4E58
U + 4FA3
U + 4FB6
U + 514C
U + 5151
U + 5167
U + 5185
U + 7522
U + 7523
U + 7A05
U + 7A0E
U + 4E80
U + 9F9C
U + 9F9F
U + 5225
U + 522B
U + 4E21
U + 4E24
U + 5169

критика

В Восточной Азии ханьскую стандартизацию критикуют в основном по культурным, но также и по техническим причинам.

Исторически сложилось так, что как в китайском, так и в японском языках не существовало точного разделения между глифами и символами . При разработке Unicode у консорциума был выбор: либо вводить эту дифференциацию систематически, либо вообще обходиться без нее и кодировать каждую вариацию отдельно. Это привело бы к многочисленным вариантам для множества семантически идентичных символов, в частности также к вариантам, которые не могут быть четко разграничены языковой областью (классический китайский, упрощенный китайский, японский, корейский), а только исторически.

Сегодняшний стандарт Unicode представляет собой компромисс: отказ от полной стандартизации, основанной исключительно на семантических критериях. Для этого были практические причины. Была заявлена ​​цель, чтобы современные китайский, японский и корейский языки можно было различать в одном тексте без изменения шрифтов. Классические тексты также могут быть четко отображены семантически в Unicode 3.1. В Unicode 3.1 невозможно только представление исторических вариаций, которые могут быть интересны в лингвистическом контексте.

Еще одна проблема заключалась в невозможности указать разные варианты символа в тексте без разметки . Это особенно проблематично для японского языка, где в некоторых географических названиях и названиях до сих пор используются старые радикалы. Например, первый символ района Гион 祇 園в Киото пишется не с, а с, хотя другие слова с祇 пишутся с радикалом.

Unicode 3.2 решил эту проблему с помощью селекторов вариантов . Стандартизированные варианты и исторически используемые формы и символы добавлялись и постоянно добавляются, например, в унифицированные идеограммы CJK блока Unicode, расширение A (Unicode 3.0), унифицированные идеограммы CJK блока Unicode, расширение B (Unicode 3.1), унифицированные идеограммы CJK блока Unicode, расширение C. (Unicode 5.2), объединенные идеограммы CJK блока Unicode, расширение D (Unicode 6.0), объединенные идеограммы CJK блока Unicode, расширение E (Unicode 8.0) и объединенные идеограммы CJK блока Unicode, расширение F (Unicode 10.0).

веб ссылки