Ханьское объединение

Пример ханьской стандартизации: идеограмма次в сокращениях, традиционные символы, кандзи и ханджа (слева направо)

Термин Han Unification ( англ. Ханьское объединение ) означает объединение Китая в компьютерных науках Hanzi , японском кандзи и корейском Hanja ( CJD ), реже - в вьетнамском Chữnôm , в шрифте, называемом. Этот термин в основном используется в связи с Unicode и проводимой там стандартизацией Han.

Идея объединения различных сценариев ханьского алфавита в один набор символов не нова - еще в 1980 году Код китайских символов для обмена информацией (CCCII) представлял собой набор символов, в котором сочетались сокращения, традиционные символы и иероглифы. Этой идее последовали и при разработке стандарта Unicode. В феврале 1990 года была основана группа CJK-IRG , специализирующаяся на ханьской стандартизации . Чуть позже эта группа была переименована в IRG .

Когда Китай объявил о разработке нового набора символов, GB 13000, Unicode и Китай договорились совместно разработать набор символов Han.

Унификация хань в Unicode

Таблица в виде графика

Группа идеографического докладчика (IRG) отвечает за стандартизацию Han в Unicode, которая проверяет все предложения кодирования и находит символы, которые можно комбинировать. Стандартизация в Unicode следует строгим правилам:

Чтобы упростить преобразование из старых наборов символов в Unicode, для 20 902 символов первой версии Unicode использовалось правило разделения источников , которое гласит, что две идеограммы, которые различаются в более старом наборе символов, также различаются в Unicode. Это правило больше не используется для кодированных позже идеограмм CJK.
Если идеограммы не связаны в историческом смысле, они также не едины. Это применимо, например, Б. к иероглифам土(земля) и士(воин), которые похожи друг на друга, но имеют совершенно разные значения и происхождение.

Затем идеограммы разбиваются на отдельные строки. Затем определяется количество и положение полосок, структура, кодировка в старом наборе символов и радикал символов. Если все одинаково, знаки едины, иначе нет.

В большинстве случаев символы упрощаются, если только они выглядят по-разному в разных стилях письма китайского письма. Например, радикал辵(как радикал辶) пишется в документе с одной или двумя верхними точками. Однако в обычном шрифте и почерке этот символ везде имеет только одну точку. Это похоже на радикал示, который по- прежнему пишется как示в классическом печатном письме ( Мин ), но пишется礻 от руки и обычным шрифтом. Поскольку после реформ письма в Китайской Народной Республике и Японии были предприняты попытки адаптировать шрифт к почерку, в Корее совсем не было и ограничено в Тайване, эти различия имеют место.

В следующей таблице показано различное представление символа в строке для разных шрифтов CJK (китайский без дополнительной информации для отображения в браузере; китайские сокращения, используемые в Китайской Народной Республике, Сингапуре и Малайзии; китайские традиционные символы, как в Китайской Республике (Тайвань) , Гонконг и Макао; японский; корейский), что обусловлено соответствующими характеристиками шрифта. Они могут определяться порядком линий, количеством линий или направлением. Для правильной работы должны быть установлены соответствующие шрифты, и браузер должен выбрать подходящий. Если это не так, вы также можете посмотреть рисунок справа.

код	Китайский (общий)	Китайские сокращения	Традиционные китайские иероглифы	Японский	корейский язык
U + 4E0E	与	与	与	与	与
U + 4ECA	今	今	今	今	今
U + 4EE4	令	令	令	令	令
U + 514D	免	免	免	免	免
U + 5165	入	入	入	入	入
U + 5168	全	全	全	全	全
U + 5177	具	具	具	具	具
U + 5203	刃	刃	刃	刃	刃
U + 5316	化	化	化	化	化
U + 5340	區	區	區	區	區
U + 5916	外	外	外	外	外
U + 60C5	情	情	情	情	情
U + 624D	才	才	才	才	才
U + 6B21	次	次	次	次	次
U + 6D77	海	海	海	海	海
U + 6F22	漢	漢	漢	漢	漢
U + 753B	画	画	画	画	画
U + 76F4	直	直	直	直	直
U + 771F	真	真	真	真	真
U + 7A7A	空	空	空	空	空
U + 7D00	紀	紀	紀	紀	紀
U + 8349	草	草	草	草	草
U + 89D2	角	角	角	角	角
U + 8ACB	請	請	請	請	請
U + 9053	道	道	道	道	道
U + 9913	餓	餓	餓	餓	餓
U + 9AA8	骨	骨	骨	骨	骨

С другой стороны, отдельные варианты символов также были отдельно включены в Unicode, что показано в качестве примера в следующей таблице:

код	Китайский (общий)	Китайские сокращения	Традиционные китайские иероглифы	Японский	корейский язык
U + 9AD8	高	高	高	高	高
U + 9AD9	髙	髙	髙	髙	髙

U + 7D05	紅	紅	紅	紅	紅
U + 7EA2	红	红	红	红	红

U + 4E1F	丟	丟	丟	丟	丟
U + 4E22	丢	丢	丢	丢	丢

U + 4E57	乗	乗	乗	乗	乗
U + 4E58	乘	乘	乘	乘	乘

U + 4FA3	侣	侣	侣	侣	侣
U + 4FB6	侶	侶	侶	侶	侶

U + 514C	兌	兌	兌	兌	兌
U + 5151	兑	兑	兑	兑	兑

U + 5167	內	內	內	內	內
U + 5185	内	内	内	内	内

U + 7522	產	產	產	產	產
U + 7523	産	産	産	産	産

U + 7A05	稅	稅	稅	稅	稅
U + 7A0E	税	税	税	税	税

U + 4E80	亀	亀	亀	亀	亀
U + 9F9C	龜	龜	龜	龜	龜
U + 9F9F	龟	龟	龟	龟	龟

U + 5225	別	別	別	別	別
U + 522B	别	别	别	别	别

U + 4E21	両	両	両	両	両
U + 4E24	两	两	两	两	两
U + 5169	兩	兩	兩	兩	兩

критика

В Восточной Азии ханьскую стандартизацию критикуют в основном по культурным, но также и по техническим причинам.

Исторически сложилось так, что как в китайском, так и в японском языках не существовало точного разделения между глифами и символами . При разработке Unicode у консорциума был выбор: либо вводить эту дифференциацию систематически, либо вообще обходиться без нее и кодировать каждую вариацию отдельно. Это привело бы к многочисленным вариантам для множества семантически идентичных символов, в частности также к вариантам, которые не могут быть четко разграничены языковой областью (классический китайский, упрощенный китайский, японский, корейский), а только исторически.

Сегодняшний стандарт Unicode представляет собой компромисс: отказ от полной стандартизации, основанной исключительно на семантических критериях. Для этого были практические причины. Была заявлена цель, чтобы современные китайский, японский и корейский языки можно было различать в одном тексте без изменения шрифтов. Классические тексты также могут быть четко отображены семантически в Unicode 3.1. В Unicode 3.1 невозможно только представление исторических вариаций, которые могут быть интересны в лингвистическом контексте.

Еще одна проблема заключалась в невозможности указать разные варианты символа в тексте без разметки . Это особенно проблематично для японского языка, где в некоторых географических названиях и названиях до сих пор используются старые радикалы. Например, первый символ района Гион 祇園в Киото пишется не с礻, а с示, хотя другие слова с祇 пишутся с радикалом礻.

Unicode 3.2 решил эту проблему с помощью селекторов вариантов . Стандартизированные варианты и исторически используемые формы и символы добавлялись и постоянно добавляются, например, в унифицированные идеограммы CJK блока Unicode, расширение A (Unicode 3.0), унифицированные идеограммы CJK блока Unicode, расширение B (Unicode 3.1), унифицированные идеограммы CJK блока Unicode, расширение C. (Unicode 5.2), объединенные идеограммы CJK блока Unicode, расширение D (Unicode 6.0), объединенные идеограммы CJK блока Unicode, расширение E (Unicode 8.0) и объединенные идеограммы CJK блока Unicode, расширение F (Unicode 10.0).

веб ссылки

Стандарт Unicode (текущая версия), Приложение E - История объединения Хань (файл PDF)
Стандарт Unicode (текущая версия), Глава 12 - Восточноазиатские алфавиты (файл PDF)
Тайная жизнь Unicode ( воспоминание от 25 июня 2013 г. в Интернет-архиве )
Отфрид Чеонг: Объединение ханов в Unicode ( воспоминание от 28 марта 2010 г. в Интернет-архиве )

Languages

Ханьское объединение

Унификация хань в Unicode

критика

веб ссылки