二代证遭遇生僻字背后的中文信息化悬案

标签: 公司动态

从一篇晚报报道引出的话题


张轴材先生答中国语言文字网记者问


本文转自http://www.china-language.gov.cn/     2006年2月21日北京晚报发表了一篇报道《敲不出生僻字办不了二代证》,说是一位 19 岁的孩子因为他的名字里有个生僻字“鈶”(据晚报说读 yí ) ,电脑打不出来。报道还说,孩子的家长指出这个生僻字虽然在电脑中敲不出来,但是可以在 Word 文档中通过‘插入符号'来输入,而工作人员却盯着电脑上的字说:‘这是查出来的而不是敲出来的字,所以还是无法输入。'” ,“ 记者从市公安局人口管理处了解到,目前二代证字库执行的是国家标准,有些生僻字在字库里不存在,公安机关也不能擅自更改。”
    2006年3月5日,北京晚报在“热线追踪”中又发表了一篇题为《新发明破解电脑汉字输入难题》的报道,说是河南大学一位教授研究的输入方法有所突破,终于解决了这个问题。
    许多读者被这两篇报道搞得一头雾水,弄不清楚这个所谓发音为“yí”的生僻字在电脑中到底是存在还是不存在?在国家标准中这个字究竟有没有位置?如果有,为什么敲不出来?难道真是要专家来发明什么新方法才能输入这个汉字吗?在二代证中,这样的问题有多少?
    2006年3月6日,语言文字网记者带着这些问题采访了书同文数字化技术有限公司总裁张轴材先生。书同文数字化技术有限公司是中文信息化的专业公司,张轴材先生长期在国际标准化组织中专职主持中日韩汉字(CJK)统一编码工作,张先生的解答可谓全面深入。

 

电脑中到底有没有这个字?原来是有繁体无简体!

 

记者问 :张老师,您能不能先澄清一下,到底这个据说发音为“ yí ”的汉字在电脑中存在不存在啊?
张轴材答 :首先,我们要分清楚,这个左边为金字旁、右边为台的汉字,到底是繁体字形式,还是简体字形式?我想,这个孩子原来的身份证上,可能手写的是简体字,他平 常书写的也极有可能是简体字,即“钅台”。这个字是“鈶”的简化字,在迄今为止的国家标准(无论是 GB 2312-1980 ,还是 GB 1300-1993 ,甚至正在审批中的 GB 13000-200x )中还没有码位。
记者问 :那在国际标准中,所谓超大字符集中,有这个字吗?
张轴材答 :也没有这个简体字。实际上,目前的国际标准 ISO/IEC 10646:2003( 工业上称作 Unicode) 和我们的国家标准 GB 13000-200x 是完全等同的 (identical) 。七万字的国际标准中没有这个字、对应国际标准中也没有这个字。很遗憾。
记者问 :那么,为何报道中说又可以“插入”或者用什么新发明输入呢?
张轴材答 :我想他们指的是“钅台”这个字对应的繁体字“鈶”,而这个繁体字是有标准编码的。在中日韩统一编码汉字中,第一批 20902 个 CJK 汉字里它就有了编码,是 U+ 9236 。从 1995 年开始,从 Windows95 起,在许多厂商的 CJK 字库里都有这个字;许多输入法中都能输入这个汉字,许多字体的字库都能显现这个汉字。 2 月 21 日的晚报就是显印的这个繁体字:鈶。那位家长“查出来的字”,和河南教授输入法输入的字,估计就是这个繁体的字“鈶”,而不是简体的“钅台”。误解就是从 这里开始的。

 

为何输入难?原来是读音就不对!

 

记者问 :为什么输入不了?
张轴材答 :主要原因是人们不认得,太生僻了啊,不能正确地读音。我查了一下我们的《四库全书》、《四部丛刊》、《康熙字典》和《汉语大字典》电子版,这个字在古籍 中的频度很低啊, 8 亿字次中才出现了 24 次,亿分之三啊,而且基本上都是在字书中重复出现的,不是在文本中出现的。更重要的是,这个字的读音有好几个, s ì 和 t á i (枱,鉈),从来没有读 yí 的记载。如果你用微软全拼输入法,用 si 和 tai 都可以输入这个字;用微软拼音输入法,只能用 si 找到它,因为作为低频字,第二个音 t á i 被忽略了。
记者问 :那谁会知道那么多读音啊?
张轴材答 :这就是纯粹的音码的局限性了。按拼音输入可以解决 99.9% 的汉字输入问题,但是对这类冷僻字,确实勉为其难。实际上,形码(按字形信息或主要按字形信息的输入方法)在这种情况下是一个很好的补充,你不信试试“四 库流行码”、“书同文巧笔”、“方正点码”和“郑码”等等输入方法,他们早就解决了数万陌生字的输入问题,这不是什么新课题,也不是什么新突破。最好媒体 别再有意无意地误导文字专家们去“发明”什么汉字电脑输入难题了。坦率地说,中文信息界的精英们在这方面浪费的时间精力实在太多了,低水平重复也实在太多 了! :这就是纯粹的音码的局限性了。按拼音输入可以解决 99.9% 的汉字输入问题,但是对这类冷僻字,确实勉为其难。实际上,形码(按字形信息或主要按字形信息的输入方法)在这种情况下是一个很好的补充,你不信试试“四 库流行码”、“书同文巧笔”、“方正点码”和“郑码”等等输入方法,他们早就解决了数万陌生字的输入问题,这不是什么新课题,也不是什么新突破。最好媒体 别再有意无意地误导文字专家们去“发明”什么汉字电脑输入难题了。坦率地说,中文信息界的精英们在这方面浪费的时间精力实在太多了,低水平重复也实在太多 了!

 

电脑中有繁无简的问题与类推简化汉字

 

记者问 :在国际标准中、在电脑中,这种有繁无简的情况究竟多不多呢?
张轴材答 :也多也不多。对于常用字,甚至次常用字,每个简体字,都有它对应的一个或多个繁体字(反之亦然);但是对于罕用字、生僻字,就不是这样了,往往是有繁体字而无对应的简体字,数以万计吧,主要是那些 馬、鳥、金、言、食、糸 为偏旁的字。
记者问 :这多不平衡啊,这个问题怎么产生的呢?
张轴材答 :这个不平衡涉及到一个中文信息技术的悬而未决的问题:怎样处理《简化字总表》之外的“类推简化字”问题。《简化字总表》列出了不到 2000 个简化字,但是没有、也不可能枚举所有可能简化的汉字。“钅台”就是种类推简化字,即是按照简化字总表的规则推导出来的新字。在汉字应用演变的历史长河 中,原来它并不存在,但是今天出现了。统计表明,凡是我们遇到一个所谓计算机的“外字”,十有五六就是这种类推简化字。
记者问 :难道国家没有规定解决这个问题吗?
张轴材答 :迄今为止还没有明确的规定。 1986 年重新颁布的《简化字总表》,“要求社会用字以《简化字总表》为标准:凡是在《简化字总表》中已经被简化了的简体字,应该用简化字而不用繁体字”;但是没 有规定《简化字总表》之外还没有简化的字怎么处理。那个时候还没考虑信息化嘛。
记者问 :这有什么困难吗?
张轴材答 :两难啊。如果把这些《总表》之外的繁体字,按照简化规则,采用可做简化偏旁的 132 个简化字和 14 个简化偏旁,一气呵成地全部简化,将会生成一大批、不是数千,而是数万个新的简化字!如果不简化吧,就会出现简繁混用的不规范状态。当然,这主要是政策问 题,本质上不是技术问题。
记者问 :这和国际标准、国家标准汉字编码有什么关系吗?
张轴材答 :关系很大。国际标准制定之初,在中日韩汉字的统一编码时就达成了广泛共识:简繁汉字分别编码、简繁汉字不认同。如果我们需要把所有已经编码的繁体汉字统 统简化,就需要赋予这些汉字数万个码位;更困难的是,汉字进入标准要有依据 (evidence) ,我们从哪里去找这些类推简化字的书面依据呢?他们从来没在官方文件、出版物、字词典中出现过;一一甄别、检验这些新造出来的字,将需要大量的人力物力资 源。

 

类推简化汉字的信息化解决方案建议

 

记者问 :有什么出路吗?
张轴材答 : :目前就是个案处理。来一个解决一个。最早是朱镕基的“镕”字,在 GB 2312 没有,在《简化字总表》和《现代汉语通用字表》中也没有,但是从 80 年代后期开始,这个字成了高频字,我们作了特别技术处理,在 CJK 中编码了。后来你会偶尔看到一些人的名字,出现在报刊上,特别是人代会、党代会的名单中,极个别的字是临时拼造的字型,或者有的是繁体形式,比如王选夫人 陈堃銶的“銶”等等,往往都是这种类推简体字。这次提到的“钅台”字,几年后有可能会在 CJK_C 中编码纳入标准,那也只是类推简化汉字的个例。
记者问 :依目前的技术,造字不是很容易吗?
张轴材答 :是的,造字很容易。不要说排版的专业系统,就是一个普通的 Windows 或 Linux 操作系统,都会提供一个小工具让你造字。但是,造出来的字是不标准的,虽然它在你造字的那台机器上可以正确地显印出来,却不能在其他的电子设备上正确显印 出来。用专业一点的话说,就是不具备“可交换性”,或不具备“可互操作性” (interoperability) 。
记者问 :电子排版没问题?
张轴材答 :对,电子排版、电子印刷都没问题,然而电子出版、电子交换、电子政务、电子商务却完全行不通。所以造字对这些类推简化字(“外字”的主要成分)不是一条很好的出路。为了深入地了解这一点,你需要知道电子排版与广义的电子出版的差别。
记者问 :电子排版,电子出版,就差一个字啊!您能解释一下吗?
张轴材答 :扼要地说,电子排版的目的只为了文字的呈现(显印,present),让人们的肉眼可以识读文字图像传载的信息,而广义的电子出版则是为了用标准的代码 表示( represent )实现广泛的信息交换,要让各种目的的应用可以正确地解读承载文字的代码。再通俗一点,我们天天首发的短信、电子邮件的文本中的汉字,就都是以标准的代码 表示的。
记者问 :明白了。随便造出来的字,包括类推简化字,是不利于正确交换的。
张轴材答 :这对于网络环境,麻烦很大啊。回到第二代身份证,你不要以为它只是表面上那张印有你照片、出生地、出生日期的卡片。这只是可视形式,它还有机读形式呢! 那就是在它下面,第某层,还嵌有一张非接触式的 IC 卡,上面记载了你的基本信息,可以用专用的设备读取,那是用来做信息交换的。它以后的用途非常多,在社会安全、保险业、银行业、汽车驾照、出入境,甚至商 业上,都有可能使用到这些信息。如果这 IC 卡上的信息与你身份证上面的可视信息不一致,或者不可读,那不是很误事吗?
记者问 :那么,对于类推简化汉字的编码,您有什么建议?
张轴材答 :这是中文信息标准化中的一个遗留的基础问题,需要政府部门主导立项来解决。我这个草民的意见是,一不要夸大这个问题,毕竟只是亿分之几、千万分之几的出现率;二是别拖了,早点决断;三是宽容一点,对极个别情况,就让它简繁并存吧。
记者问 :有什么技术上的招数吗?
张轴材答 :最重要的是要摸清底数,规范化地做好统计工作:看看这类字到底有多少?分门别类地总结出来。不要把类推简化字和那些早就解决了的问题(错别字、废除了的 第二批简化字、已经编码但不会输入的汉字)搅在一起。正确地记录这些字,也有个标准化问题。实际上,国际标准有一套办法,可以用已经编码的字符记录未编码 的字符,这就是汉字结构符和汉字构件的组合序列。
记者问: 汉字结构符是什么啊?
张轴材答 :这在 Unicode 中已经规定了,汉字的上下结构符、左右结构符等等。
    比如这个“钅台”字,可以规范化地表示为序列“ 钅台”,而不必五花八门地表示为“ yi ”、或“鈶的简化字”、或“左钅右台”。这样便于统计分析处理。汉字结构符虽然有 12 个之多,但是我们在十亿字次的典籍数字化工程的外字记录中发现,最有用的是左右结构和上下结构,他们占了 90% 以上。

 

给姓名中使用了类推简化汉字的朋友出主意

 

记者问 :对于那些名字已经使用了类推简化字的同胞,您可以提出个建议吗?
张轴材答 :只是建议,不是让你放弃姓名自由啊。我直截了当地说吧,快点更名换字!第一,你那个生僻字,即使可以申报到 ISO-GB 成为标准代码,也要很长的流程,可能要几年吧;第二,即使有了标准,也要有人给你在字库中实现啊,厂商也不可能在多种字库里给你专门做这个罕用字及其输入 方法的。第三,更名换字,最好要找同音同义的异体字、通假字,常用的简体字和传承字。
记者问 :什么是传承字?
张轴材答 :传承字,在这里就是特指那些无所谓简繁的汉字,其实汉字中并不是非简即繁,还有相当一部分是这种比较稳定的汉字,如“天地人日金木水火土”。你想把名字 起得有特异性,与众不同,这是可以理解的,但是别去找生僻字啊。你的名字每个字可能很一般,但搭配起来就未必没特点啊。我的名字,轴和材,都特普通,但是 组合起来成“轴材”,到现在也没遇到过重名的呢!
记者问: 还有就是别用单字的名,那样重复的可能性就太大了。
张轴材答 :说的是。而且选字、起名字最好从国际标准的“ CJK 汉字基本子集” (IIcore) 里去选。这个 IIcore ,是 International Ideograph Basic Subset ( http://www.cs.cuhk.hk.edu/~irg ) ,只有 1 万字,但是使用频度很高,涵盖了现代汉语语料的 99.9% ,古汉语的 97% 。现在和以后的手机都会支持它。你只有使用了常用字,才能充分享用现在电脑、手机、网络上的资源,与人们无障碍地交流。比如,你给朋友发短信,怎么落款写 你的名字啊?你的朋友想通过书同文彩书,给你刻一枚手机图章 (http://caishu.unihan.com.cn ) ,可是输入不了你的名字,多可惜啊!当然最麻烦的莫过于到银行取不了款、到边境受到责难。哲人说:自由是对必然的认识。如果您认识到了冷僻字、类推简化字对您必然造成困扰,早点行动,更名换字,可能就获得自由了!
记者问 :谢谢您,从这个字的话题说起,讲了许多中文信息处理的道理。
张轴材答 :不用客气。这也是许多朋友问过我、我愿意讨论的问题;同时也算是我的博客吧。顺便把我今天从典籍中查到的关于这个“金台”字的信息附在后面供参考。欢迎来信共同探讨: joe.zhang@unihan.com.cn ! TEL : 13901335095

:典籍中的 [金台]
================================================
•  《四部丛刊》出现 5 次
    玉篇 鈶(辝理切亦作耜)
    广韵 鈶(鋌鈶)
    新修龙龛手鉴 鈶(音似鋋也)
•  《四库全书》出现 19 次
    类篇 鈶 詳兹切博雅柄也又盈之切耒耑也又象齒切矛屬文一重音二
•  《汉语大字典》 鈶 s ì 枱,鉈 t á i
    《中华古汉语字典》 鈶 [ cí]古代农具耒或镰刀的柄。《管子·轻重己》:鉊鈶乂橿。