Ханьское объединение
Термин Han Unification ( англ. Ханьское объединение ) означает объединение Китая в компьютерных науках Hanzi , японском кандзи и корейском Hanja ( CJD ), реже - в вьетнамском Chữnôm , в шрифте, называемом. Этот термин в основном используется в связи с Unicode и проводимой там стандартизацией Han.
Идея объединения различных сценариев ханьского алфавита в один набор символов не нова - еще в 1980 году Код китайских символов для обмена информацией (CCCII) представлял собой набор символов, в котором сочетались сокращения, традиционные символы и иероглифы. Этой идее последовали и при разработке стандарта Unicode. В феврале 1990 года была основана группа CJK-IRG , специализирующаяся на ханьской стандартизации . Чуть позже эта группа была переименована в IRG .
Когда Китай объявил о разработке нового набора символов, GB 13000, Unicode и Китай договорились совместно разработать набор символов Han.
Унификация хань в Unicode
Группа идеографического докладчика (IRG) отвечает за стандартизацию Han в Unicode, которая проверяет все предложения кодирования и находит символы, которые можно комбинировать. Стандартизация в Unicode следует строгим правилам:
- Чтобы упростить преобразование из старых наборов символов в Unicode, для 20 902 символов первой версии Unicode использовалось правило разделения источников , которое гласит, что две идеограммы, которые различаются в более старом наборе символов, также различаются в Unicode. Это правило больше не используется для кодированных позже идеограмм CJK.
- Если идеограммы не связаны в историческом смысле, они также не едины. Это применимо, например, Б. к иероглифам土(земля) и士(воин), которые похожи друг на друга, но имеют совершенно разные значения и происхождение.
Затем идеограммы разбиваются на отдельные строки. Затем определяется количество и положение полосок, структура, кодировка в старом наборе символов и радикал символов. Если все одинаково, знаки едины, иначе нет.
В большинстве случаев символы упрощаются, если только они выглядят по-разному в разных стилях письма китайского письма. Например, радикал辵(как радикал辶) пишется в документе с одной или двумя верхними точками. Однако в обычном шрифте и почерке этот символ везде имеет только одну точку. Это похоже на радикал示, который по- прежнему пишется как示в классическом печатном письме ( Мин ), но пишется礻 от руки и обычным шрифтом. Поскольку после реформ письма в Китайской Народной Республике и Японии были предприняты попытки адаптировать шрифт к почерку, в Корее совсем не было и ограничено в Тайване, эти различия имеют место.
В следующей таблице показано различное представление символа в строке для разных шрифтов CJK (китайский без дополнительной информации для отображения в браузере; китайские сокращения, используемые в Китайской Народной Республике, Сингапуре и Малайзии; китайские традиционные символы, как в Китайской Республике (Тайвань) , Гонконг и Макао; японский; корейский), что обусловлено соответствующими характеристиками шрифта. Они могут определяться порядком линий, количеством линий или направлением. Для правильной работы должны быть установлены соответствующие шрифты, и браузер должен выбрать подходящий. Если это не так, вы также можете посмотреть рисунок справа.
код | Китайский (общий) |
Китайские сокращения |
Традиционные китайские иероглифы |
Японский | корейский язык |
---|---|---|---|---|---|
U + 4E0E | 与 | 与 | 与 | 与 | 与 |
U + 4ECA | 今 | 今 | 今 | 今 | 今 |
U + 4EE4 | 令 | 令 | 令 | 令 | 令 |
U + 514D | 免 | 免 | 免 | 免 | 免 |
U + 5165 | 入 | 入 | 入 | 入 | 入 |
U + 5168 | 全 | 全 | 全 | 全 | 全 |
U + 5177 | 具 | 具 | 具 | 具 | 具 |
U + 5203 | 刃 | 刃 | 刃 | 刃 | 刃 |
U + 5316 | 化 | 化 | 化 | 化 | 化 |
U + 5340 | 區 | 區 | 區 | 區 | 區 |
U + 5916 | 外 | 外 | 外 | 外 | 外 |
U + 60C5 | 情 | 情 | 情 | 情 | 情 |
U + 624D | 才 | 才 | 才 | 才 | 才 |
U + 6B21 | 次 | 次 | 次 | 次 | 次 |
U + 6D77 | 海 | 海 | 海 | 海 | 海 |
U + 6F22 | 漢 | 漢 | 漢 | 漢 | 漢 |
U + 753B | 画 | 画 | 画 | 画 | 画 |
U + 76F4 | 直 | 直 | 直 | 直 | 直 |
U + 771F | 真 | 真 | 真 | 真 | 真 |
U + 7A7A | 空 | 空 | 空 | 空 | 空 |
U + 7D00 | 紀 | 紀 | 紀 | 紀 | 紀 |
U + 8349 | 草 | 草 | 草 | 草 | 草 |
U + 89D2 | 角 | 角 | 角 | 角 | 角 |
U + 8ACB | 請 | 請 | 請 | 請 | 請 |
U + 9053 | 道 | 道 | 道 | 道 | 道 |
U + 9913 | 餓 | 餓 | 餓 | 餓 | 餓 |
U + 9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 |
С другой стороны, отдельные варианты символов также были отдельно включены в Unicode, что показано в качестве примера в следующей таблице:
код | Китайский (общий) |
Китайские сокращения |
Традиционные китайские иероглифы |
Японский | корейский язык |
---|---|---|---|---|---|
U + 9AD8 | 高 | 高 | 高 | 高 | 高 |
U + 9AD9 | 髙 | 髙 | 髙 | 髙 | 髙 |
U + 7D05 | 紅 | 紅 | 紅 | 紅 | 紅 |
U + 7EA2 | 红 | 红 | 红 | 红 | 红 |
U + 4E1F | 丟 | 丟 | 丟 | 丟 | 丟 |
U + 4E22 | 丢 | 丢 | 丢 | 丢 | 丢 |
U + 4E57 | 乗 | 乗 | 乗 | 乗 | 乗 |
U + 4E58 | 乘 | 乘 | 乘 | 乘 | 乘 |
U + 4FA3 | 侣 | 侣 | 侣 | 侣 | 侣 |
U + 4FB6 | 侶 | 侶 | 侶 | 侶 | 侶 |
U + 514C | 兌 | 兌 | 兌 | 兌 | 兌 |
U + 5151 | 兑 | 兑 | 兑 | 兑 | 兑 |
U + 5167 | 內 | 內 | 內 | 內 | 內 |
U + 5185 | 内 | 内 | 内 | 内 | 内 |
U + 7522 | 產 | 產 | 產 | 產 | 產 |
U + 7523 | 産 | 産 | 産 | 産 | 産 |
U + 7A05 | 稅 | 稅 | 稅 | 稅 | 稅 |
U + 7A0E | 税 | 税 | 税 | 税 | 税 |
U + 4E80 | 亀 | 亀 | 亀 | 亀 | 亀 |
U + 9F9C | 龜 | 龜 | 龜 | 龜 | 龜 |
U + 9F9F | 龟 | 龟 | 龟 | 龟 | 龟 |
U + 5225 | 別 | 別 | 別 | 別 | 別 |
U + 522B | 别 | 别 | 别 | 别 | 别 |
U + 4E21 | 両 | 両 | 両 | 両 | 両 |
U + 4E24 | 两 | 两 | 两 | 两 | 两 |
U + 5169 | 兩 | 兩 | 兩 | 兩 | 兩 |
критика
В Восточной Азии ханьскую стандартизацию критикуют в основном по культурным, но также и по техническим причинам.
Исторически сложилось так, что как в китайском, так и в японском языках не существовало точного разделения между глифами и символами . При разработке Unicode у консорциума был выбор: либо вводить эту дифференциацию систематически, либо вообще обходиться без нее и кодировать каждую вариацию отдельно. Это привело бы к многочисленным вариантам для множества семантически идентичных символов, в частности также к вариантам, которые не могут быть четко разграничены языковой областью (классический китайский, упрощенный китайский, японский, корейский), а только исторически.
Сегодняшний стандарт Unicode представляет собой компромисс: отказ от полной стандартизации, основанной исключительно на семантических критериях. Для этого были практические причины. Была заявлена цель, чтобы современные китайский, японский и корейский языки можно было различать в одном тексте без изменения шрифтов. Классические тексты также могут быть четко отображены семантически в Unicode 3.1. В Unicode 3.1 невозможно только представление исторических вариаций, которые могут быть интересны в лингвистическом контексте.
Еще одна проблема заключалась в невозможности указать разные варианты символа в тексте без разметки . Это особенно проблематично для японского языка, где в некоторых географических названиях и названиях до сих пор используются старые радикалы. Например, первый символ района Гион 祇 園в Киото пишется не с礻, а с示, хотя другие слова с祇 пишутся с радикалом礻.
Unicode 3.2 решил эту проблему с помощью селекторов вариантов . Стандартизированные варианты и исторически используемые формы и символы добавлялись и постоянно добавляются, например, в унифицированные идеограммы CJK блока Unicode, расширение A (Unicode 3.0), унифицированные идеограммы CJK блока Unicode, расширение B (Unicode 3.1), унифицированные идеограммы CJK блока Unicode, расширение C. (Unicode 5.2), объединенные идеограммы CJK блока Unicode, расширение D (Unicode 6.0), объединенные идеограммы CJK блока Unicode, расширение E (Unicode 8.0) и объединенные идеограммы CJK блока Unicode, расширение F (Unicode 10.0).
веб ссылки
- Стандарт Unicode (текущая версия), Приложение E - История объединения Хань (файл PDF)
- Стандарт Unicode (текущая версия), Глава 12 - Восточноазиатские алфавиты (файл PDF)
- Тайная жизнь Unicode ( воспоминание от 25 июня 2013 г. в Интернет-архиве )
- Отфрид Чеонг: Объединение ханов в Unicode ( воспоминание от 28 марта 2010 г. в Интернет-архиве )