CJK Ideographs Comparison

中日韩常用汉字对比分析报告_项目背景与目标

中日韩(CJK)各国家/地区的常用汉字表或教育用字表的颁布,均早于或平行于国际标准编码字符集ISO/IEC 10646 的制定。因此,在这些常用字表中,往往都没有汉字的国际标准代码。由于技术条件和应用目的的限制,许多传统的汉字分析对比工作往往有两个缺憾:一是未能在大范围同时准确地描绘两个或多个国家/地区常用汉字的字形特征;二是未能指明两个国家/地区的汉字之间的对应关系,说明他们的编码状态、认同与否、是否存在简繁异的关系?抑或只有微小的笔形差异?这对于汉字对外教学和多元汉字文化的交流,以及汉字软件的开发与应用,都多少造成了一些困扰。

本项目是以中国《现代汉语常用字表》为基础、辅以汉语水平考试HSK 字表,对照日韩和港台地区常用汉字或教育用字,采用ISO 习用的汉字认同规则,进行大陆-台湾、内地-香港、中-日、中-韩的汉字对比,提供一套比较完整、准确的基础资料,作为CJK 汉字统一编码的应用和补充,为汉字对外教学,特别是面向汉字文化圈的汉字教学提供有益的参考。

1. CJK 汉字统一编码的补充

中日韩汉字,属于同一文字体系,已是不争的事实。基于这一事实,从上个世纪九十年代初以来,经过各国文字专家与IT 专家十余年的共同努力,本着求同存异的精神,在国际标准ISO/IEC 10646 和工业标准Unicode 的框架内,制定了一整套汉字认同甄别的规则,全面完成了中日韩汉字的统一编码CJK UnifiedIdeographs 及Extension A 和B。目前,来自各个国家和地区标准的字符集、字表、字典中的逾七万汉字,已经得到了他们的国际身份证ID-国际标准代码。这是迄今汉字发展史上最大规模、最大范围的一次文字整理工作,也是汉字国际标准化的一个重要突破。随着CJK 汉字在计算机、移动设备、因特网的实现,CJK 统一编码汉字将会日益显露其对于信息技术、语言教育、文化交流的深远影响。

上述CJK 汉字统一编码,粗略地描述,是在一个所谓XYZ 三维空间进行的[注1]。这里,X 轴代表字义,Y 轴代表字形(Generic Glyph,或Abstract Glyph) [注2],Z 轴代表具体的造型(文字专家习惯用“字样”和“字体”这样的术语来称各种字型)。CJK 汉字统一编码,就是把具有相同抽象字形的汉字聚集在一起赋予相同的代码;换言之,CJK 汉字的认同是在Y 轴上进行的,而不是基于字义(X 轴)和具体造型(Z 轴)进行的。与此相关的,有两个悬而未决的问题:

  1. (1) CJK 汉字认同之后,尚未进行简繁异体字或者新旧字形汉字在字义层次上(X 轴上)的关联标注。
  2. (2) 大批具有微小差异的汉字被认同了,比如具有新旧字形的草字头、走之旁的汉字;但是也有些本来应当认同的汉字,它们只在笔形上有微小的差异,或者Z 轴上的微小变异,然而,为了兼容已有信息编码标准的需要,一个称作“源字集分离”(Source Code Separation)的例外处理规则[注3],使他们在国际标准中被分别编码了。比如,説-說,吴-吳,决-決,吕-呂在标准中都当作了“不同的汉字”,由于他们属于高频字,其分别编码的副作用不可小觑。
  3. 对于CJK 汉字的应用和推广而言,这也是需要进一步完善的基础工作。换言之,迄今为止,CJK 统一编码做的是“水平认同”,而现在需要进一步做一些双语境、多语境的“垂直认同”的工作或“垂直标注”的工作。[注4]

此文档为收费文档,如需查看全部请付费购买。

具体收费方式详见:收费标准