日文版面
联系我们
收藏本站


    在内容上与工业标准Unicode完全等同的ISO/IEC 10646可以视为新一代的ASCII。在本演讲中,Unicode是ISO 10646和Unicode的统称。Unicode是计算机的代码系统从小代码空间向大代码空间、从单一的拉丁文向多文种演进的必然结果。
    编码字符是计算机系统处理的基本元素,可适用于文字内容的代码表示、外部表示(呈现)、存储、交换和处理。Unicode的先进的体系结构和多文种对国际电子出版商提供了最好的发展机遇。今天,当一个电子出版商面对世界市场时,他就得采用Unicode,这已经是不争的事实。
    丰富多彩的文化内容,无论是古代的,当代的还是现代的,都可以用Unicode表征而没有代码空间的制约。特别的,借助Unicode的统一编码汉字,中文古籍也得以数字化。世界上最大的中文丛书《四库全书》电子版就是一个明证。
    由于在一种文字(多种语言)中大量的异体字之间存在着的内在的关系,在电子出版物中为着检索的目的建立异体字之间的关联是非常重要的。对于Code Page,异体字的关联是非常难以实现的。而今,Unicode/统一的CJK汉字时的简繁异体汉字可以并存于一个字符集和一个平台加以处理,大大地降低了实现关联的难度。借助电子出版物中嵌入的汉字关联引擎,全文检索的查全率得到了极大的提高,并极大地方便了各种语言的读者。
    张轴材在中文信息学会20周年学术报告会上的讲稿。
    互联网上的电子资源与日俱增,无限膨胀,怎样让用户迅速有效地查找到所需信息,这是信息工作者与公众都关注的问题。XML与Dublin Core 的出现,尤其是二者结合起来应用,已为解决这一问题带来良好的效益。
    Dublin Core是90年代末国际组织Dublin Core Metadata Initiative 拟定的用于标识电子资源的一种简要目录模式。它一出现就被北美、欧洲、亚洲和澳洲20多个国家认同,不仅图书馆、博物馆,不少政府机构、商业组织正在或准备采用。美国于2001年7月确定为国家标准(Z39.85)。
    它的产生,是来自制订者从传统的图书馆读者通过卡片目录查询、借到所需图书的办法得到启示:在网络上检索电子资源,也可以借助于反映这些电子资源的目录信息。于是 Dublin Core 的拟定者们参照图书馆卡片目录的模式,制定了十五项广义的元数据(Metadata)。
    ... ...
    纵观上述 15项元数据,可以看出:首先,它比较全面地概括了电子资源的主要特征,涵盖了资源的重要检索点辅助检索点或关联检索点,以及有价值的说明性信息。其次是它简洁、规范。这15项元数据不仅适用于电子文献目录,也适用于各类电子化的公务文档目录,产品、商品、藏品目录,具有很好的实用性。
各位领导、专家、同行:
    衷心感谢这次会议的发起者和组织者,为大家提供了这样好的机会来相互交流。这样规模的会议的最大功德之一,就是建立和加强了业界各方面的联系。由于时间所限,况且我们已经有两篇研究报告收入了会议论文集,会场还有产品展示,我在这里就不再介绍某项具体的古籍数字化内容或某个具体的数字化工具,而是借这个机会探讨一下大家可能会关心的问题 - 古籍数字化的经验和教训。
一 .书同文公司古籍数字化八年历程
    从1996 年策划文渊阁《四库全书》电子版开始,书同文公司从事古籍数字化已经 8 年了;如果追溯到1994年着手面向古籍的《汉语大词典》电子版,书同文卷入到古籍数字化这一行,已经十年有余了。十年来,我们虽然步履艰难,但毕竟荣幸地为几个汉字文化的“世界之最”(世界上最大的丛书《四库全书》、世界上最大的中文辞书《汉语大词典》和世界上文史工作者使用频度最高的《四部丛刊》)的数字化贡献了力量,最近还推出了《中国历代石刻史料汇编》和《十通》这样一些中规模的数字化古籍内容;与此同时,我们还进一步开发了古籍数字化的软件,把他们提升到了通用数字化工具的水准,让从事古今典籍数字化的同行能共享我们的技术和工具 - “ 数码翰林 ”。
    2002年5月中旬至5月底,书同文公司高级专员朱岩等在湖南、桂林、南宁等地就“信息资源数字化&数字图书馆的研发”问题和图书馆界的朋友进行了广泛的交流。以上是这次交流演讲稿的下载。
孫中山數字圖書館軟件(體)系統研發工程彙報

朱岩
北京書同文數字化技術有限公司
    作为一部包罗弘富,举世闻名的字书,《康熙字典》采用了反切的注音方法。
    反切是我国给汉字注音的一种传统方法,又称"反语"或"反音"。其发明人是三国时代魏国的经学家和训诂学家孙炎。孙炎,字叔然,乐安(今山东博兴)人。他是东汉大学者郑玄的弟子,时人称为"山东大儒"。其所着《尔雅音义》一书,率先采用反切的方法注音。反切之法,由此而大行于世。北齐学者颜之推说:"孙叔然创《尔雅音义》,是汉末人独知反语,至于魏世,此事大行。"(《颜氏家训.书证》)清代学者赵翼也说:"至魏孙炎,始作反音,则今反切之学也。"(《陔余丛考.音字用点》)孙炎堪称为反切之学的鼻祖。
    反切的注音方法,通常用两个汉字来标注另一个汉字的读音。所使用的两个汉字,前者称为反切上字,后者称为反切下字。被切字的声母和清浊与反切上字相同,被切字的韵母和字调与反切下字相同。例如"东"字,其反切为德红切。取德的声母d,红的声母ong,便构成东字的读音dong。又如《康熙字典》对"爬"字的注音:"爬,《广韵》《集韵》《韵会》《正音》,并蒲巴切,音琶。"也就是说,在这四部古代韵书中,"爬"字的反切都是蒲巴切。我们取"蒲"的声母p和"巴"的韵母"a",二者相合,读音为pa,正与琵琶的"琶"字读音相同。再如:"盥,《唐韵》《集韵》《韵会》《正韵》,并古玩切。""虔,《唐韵》《集韵》《韵会》,并渠焉切。"用清朝人的话来说,"切字之法,如箭射标。切脚二字,上字为标,下字为箭。"(《康熙字典.切字样法》)这个比喻是非常形象而能说明问题的。
I.《四庫全書》
    盛世修典,清朝纂修《四庫全書》是中國文化史上的一次重大的文獻整理活動。
    從乾隆三十七年(1772)正月開始征書,三十八年(1773)二月四庫館開館,到乾隆四十六年(1781)十二月第一份《四庫全書》抄成,這次由朝廷倡導的規模空前的修書活動,在中國歷史上是絕無僅有的。《全書》廣泛網羅和搜集了從上古流傳至清初的所有著作,用"經"、"史"、"子"、"集"四大部分類,共收書約3,461種,總計約79,337卷,約80,000萬字或97,700萬字[1]。它全面總結和系統整理了三千年來中國封建文化的學術成果,保留了豐富的典籍,反映了那個時代人們的認知世界。任職於"四庫全書館"的官員學者,多是當時學術界名流,他們傾十年心血而成的《四庫全書》,無疑也是對中國古代文化的一大貢獻。
    世人對《四庫全書》的褒貶不一,褒者譽之為"文化的萬里長城";貶者曰"四庫出,天下書亡",對於館臣奉旨刪節、篡改原著造成的後果痛心疾首。然而,《四庫全書》乃世上第一大書則是不爭的事實。《四庫全書》作為一部完整的叢書,它明晰統一的體例,宏大的規模,全面的收羅,豐富的資料,都是其他叢書難以比擬的。該書因卷帙浩繁,不曾付梓刊行,只手抄了七部,分別建閣貯之,這就是被稱作"內廷四閣"或"北四閣"的北京大內之文淵閣、圓明園之文源閣、承德避暑山莊之文津閣和盛京(今瀋陽)故宮之文溯閣;以及被稱作"江南三閣"的揚州大觀堂之文匯閣、鎮江金山寺之文宗閣和杭州聖因寺之文瀾閣。四庫七閣因書而建,《四庫全書》因閣而得以保存。從書成閣立至今二百餘年間,書與七閣歷盡滄桑,伴隨著中國近代史上的頻繁戰亂而飽受摧殘,最短的存世僅六、七十餘年,目前只有文淵、文津、文溯、文瀾四閣尚屹立人間。
    2002年3月31日,应日本汉字文献情报处理研究会邀请,书同文公司高级专员朱岩和市场部经理朱江在庆应大学会议厅,向来自日本大学研究团体以及一些IT企业的学者报告了书同文的文献资源数字化技术和数字图书馆技术( UniHanDLer),演示了 《四部丛刊》电子版 和“ 孙中山数字图书馆 ”。
    报告之后,双方进行了长时间详细、具体的讨论,大家均认为交流非常成功!


计算机世界“世纪回眸”约稿(发表在《计算机世界》2000年1月3日 第一期 C版上)
    20世纪的最后十年,人类完成了一项连接计算机世界与真实世界的基础工作:为把迄今为止尚存的语言(Living Languages)按照其文字(Script)统一编码,制定全球通用的编码符集标准ISO/IEC 10646-1:2000,与它等用的工业标准则是Unicode 3.0。
    ( http://www.dkuug.dk/sc2 , http://www.unicode.org , http://www.cse.cuhk.edu.hk/~irg ) 以下,为了简便,用”Unicode”来泛指二者。2000年伊始,这个标准的文本便会正式印刷面世。在此之前,计算机技术几乎用了30多年的时间,才完成了字符编码从5 bit – 7 bit – 8bit 直到 8 + 8bit 的转换,目前则开始了向16 bit – 32 bit的过渡。在这样广阔的代码空间、在世界范围内统一代码,其意义远远超过了几千年前的“书同文”;人们有时称这是计算机时代的书同文、字同码。
    Unicode将对面向多文种的计算机系统软件、应用软件、电子出版,乃至整个IT行业产生深远的影响,大大加速文字信息交流工具的国际化和本地化,并且使国际化与本地化有机地结合起来。这对于结束长期以来形成的海峡两岸分裂、并导致计算机世界两套代码(GB , Big5)的局面,有着非常深远的意义。即使是日本,长期以来抵制Unicode的国家,最近也发生了戏剧性的变化,转向更积极地支持它的应用和开发。
书同文公司总裁在EVA2002 Beijing (清华大学)中欧信息社会合作论坛上演讲
关于大规模中文数字遗产数字化的实践与思考


    本文扼要地回顾了过去十年来中文典籍数字化的主要进展,数字化内容及技术的代表成果,及其所产生的影响;总结了共同的技术趋势;并就狭义的中文典籍数字化在内容和访问方式的未来发展做出了揣测性的预测,指出了典籍数字化走向 Web-WAP 的大趋势。
    一、中文典籍数字化在世纪之交的突破及影响
    十二年前,在典籍数字化领域出现了两件标志性的大事。第一件是, 1993 年《牛津字典》 Oxford English Dictionary 斥资 5500 万美元开始了大规模的修订计划,每季度都与项目进度平行地提供一个联机版 http://www.oed.com/about/oed-online 。第二件是, 1994 年正式发布的《大英百科全书网络版》 Encyclopedia Britannica Online 作为互联网上第一部百科全书问世 http://162.105.138.185/database/EB.htm 。这两项发展可以说开创了规模化电子出版的先河,同时也触动了远在东方的一群敏感的出版人的神经,他们在积极地思考和探索:具有丰富文化典藏的中国应怎样走这条数字化道路?于是就有了京港沪三地合作开发《汉语大词典》电子版第一版的试探之举。
[臺北第二屆漢字文化節研討會發言稿]

讓漢字在手機上展現異彩

張軸材 北京書同文數字化技術有限公司總裁
楊秀霞 中國科學院軟件研究所研究員
2006年5月10日
    手機僅僅作為通話、通訊的工具已成為歷史;手機的數據服務以青少年娛樂為主的現象只是一個過程。隨著3G時代的到來,無線網路將極大地拓展漢字文化的舞臺。在MMS和WAP手機增值服務領域,作者以短信書法化的彩書為例,介紹了名章纂刻、墨海淘字、題詞贈詩、筆劃傳情的機理,以及基於國際標準漢字基本子集IIcore、簡繁異體字轉換、全文檢索等中文資訊技術的唐詩選誦、詢經問典等應用,揭示了漢字文化在無線領域的巨大發展空間,指出:手機將成為人們學習、交流和欣賞漢字文化的最有力的工具,手機將作為人們形影不離的、高品味文化生活的終端。
[第四届两岸四地中文数字化论坛发言]

手机彩书与汉字文化

张轴材 北京书同文数字化技术有限公司
2007-01-24
    尽管人们对于汉语的流行程度当前还有不同的看法,汉字的国际化和世界范围的汉语热已是不争的事实。
    韩国教授选新年寄语,出自《孟子.公孙丑》的中国成语“反求诸己”列为榜首;美国把汉语列为战略语言;一部《大长今》居然掀起了两岸四地和东南亚对汉医、汉药和汉文化的热潮;CCTV《百家讲坛》易中天“品三国”如日中天,于丹的“《论语》心得”火爆销售…。
    这些看似孤立的事件实际上都有着共同的深刻原因。
    从根本上说,这主要是源于汉字文化的深刻内涵和巨大的魅力

在第一届古籍数字化国际会议上的发言

张轴材
2007-8-13
    跟文史古籍界的各位不太一样,我是踏入文史典籍领域的一个“越俎代庖”分子,不是文字专家,也不是文史专家,只是一个工程师。我原来学自动控制,后来学计算机,但是由于历史的误会,从89年起就卷入中日韩汉字统一当中。是一个CJK统一编码的“始作俑者”者,“始作俑”为什么加引号?因为现在有的人说有好的评价,有的说还有这样那样的问题,不管怎么样,我有相当的责任,因为在国际上我是该项目的长期负责人。我卷入大家做的这个领域是从95年做《汉语大词典》电子版开始,到文渊阁《四库全书》电子版工程,还有大家熟悉的《四部丛刊》电子版,所以我做的事情跟大家相关...
    演讲稿下载  演讲录音下载
北京书同文数字化技术有限公司版权所有
Copyright© 2007 Unihan Digital Technology Co., Ltd. All Rights Reserved
京ICP证041254号
增值电信业务经营许可证:京B2-20050087