《海淀创意产业》专刊:书同文数字化,让中国典籍里的文化资产活起来
本刊记者 赵志刚
秦 汉美文前朝事,古为今用书同文。文化的传播与时代特征密切相关,随着时光流逝,人类文明积淀在典籍中的文化资产离我们越来越远。作为信息时代标志的互联网 技术,为唤醒沉睡在中国典籍中的文化资产打开了一扇门。北京书同文数字化技术有限公司(以下简称“北京书同文”),奋苍颉之力,创数码翰林,应用数字化技 术通古今之变,历经20年完成了一批最重要的中国典籍的数字化整理、保护和利用,让隐藏在中国典籍里的文化资产鲜活起来,让经典与现实共筑中国梦。
通古今之变:让文化资产活起来
盛夏时节,在位于海淀区马甸东路的金澳国际大厦的北京书同文数字化技术有限公司总部,接待我们的是总经理张福煜先生,他带我们参观了公司办公场所,介绍了北京书同文的业务情况。
张福煜总经理介绍说,作为一个对传统文化知识、现代信息技术有着很高要求的行业,全国从事典籍数字化的企业不到10家,而北京书同文是全国最早从事中国典籍数字化的高新技术民营企业。公司成立以来,经历了中关村的风风雨雨近二十载,也算是中关村的老字号了,之所以还能在自己的一亩三分地耕耘,靠得是专注和信念,还有就是兴致所至。
1994年,北京书同文团队最早介入中文信息处理领域始发于《汉语大词典》电子版开发;1996 年策划并承担《文渊阁四库全书》电子版工程;2000年,《文渊阁四库全书》光盘面市,并获得莫比斯大奖。
张 福煜总经理介绍,企业是做软件起家的,特点是中外结合、文理结合、研发与应用结合。我们在办公区看到年轻的员工在电脑上认真审核着每一个文字。经介绍,这 些员工是录校员。张总介绍说,录校员包括校对和补录入两项内容,最重要的工作是校对。古籍数字化是个慢工出细活的行业,先要根据扫描书页影像交由电脑OCR系 统自动识别为文字,其中不少集外字、模糊字、通假字、异体字极易产生识别错误,那么这些问题只能靠人工进行校对更正,许多都要根据上下文意进行判断,由录 校员在空缺的位置补录上正确的文字。所以录校员不仅需要古汉语知识,同时也要具备一定历史常识的储备,而不仅仅是单纯录入工作。
张 总说:古籍数字化是个特殊的信息技术产业,完全不同于新兴文化创意产业。不仅需要现代技术的应用,又要有长期从业于中文数字化和文史领域的知识经验积累, 要耐得住寂寞和孤独。文化和历史需要“保真还原”,我们所做的工作是以新的载体和新的形式如实地将沉淀下来的文化和尘封已久的历史,以新的形式和载体呈现 出来,与此同时也是对古籍文献档案最好的保护。书同文不光是做企业,同时也在积功德,“嘉惠当代学林,荫福后世子孙”,同样是我们这些从业者寻求的目标。
中 国是一个文明古国,拥有最丰富中华文明的宝贵典籍资源。一百年前中国正处于半封建半殖民地的深渊,美国钢铁大王卡内基在游历中国、印度和日本之后,认定这 三国中,中国必将胜出。他的理由是:西方人不能掠夺走中国的内在本质。中国人的哲学思想是中华文明的根基,也是中国崛起的原动力。
自此百年后,中国卓然屹立于世界民族之林,经济实力全球第二,中国道路成为“北京共识”。重拾中华文明辉煌,我们感恩汉字,是数千年“书同文”延绵不绝的汉字积淀了浩如烟海的中华文化典籍,让古老中华文明的根基成为现代中国崛起的原动力。
台湾诗人余光中先生曾指出:中华文化是一个很大的圆,圆心无处不在,圆周无迹可寻,中文就是它的半径,中文走得越远,圆就越大。历史上,随着汉字的传播,中国成为中华文明核心圈,东亚及东南亚地区形成了大中华文明圈。
时至今日,中国典籍仍然是东亚文化的根祖。但是,由于典籍历史久远,且多珍本,普通人甚至一般的研究者很难看到和利用中国典籍,隐藏在典籍中的文化资产也很难被现代社会知晓和运用。国内大的公共图书馆和著名大学图书馆都有“古籍善本/特藏部”,里面收藏着“镇馆之宝”,绝不轻易示人。
信 息时代互联网技术创造了无边界传播,典籍数字化成为古籍整理和传播的未来方向。数字化古籍以其信息量大、检索快捷方便、不受时空限制等特质,使古籍使用者 的效率大大提高。同时,古籍数字化也使许多难得一见的“镇馆之宝”得到新生,为广大读者阅览我国古代文献典籍提供了便利。
比如,拥有一部《四库全书》不用再像过去一样要给它建藏书阁,现在只需携带一个硬盘就能带着《四库全书》走天下。更神奇的是,无论在何时何地,如果你有任何疑问,只要利用手机登陆专业网站,便可查询、下载所需的典籍……
大数据的蓬勃发展,让专家学者和莘莘学子渴望着从浩如烟海的典籍中吸取知识营养,得到思想启蒙,并打通古与今的对话。而北京书同文典籍全文数字化平台,可以让字字可查、句句可检、图图可视,提供更深度的古籍数据标引、挖掘、分析,让历史参与到社会生活中来。
中文典籍是中国的,是古老的;数字化是世界的,是年轻的。在信息技术不断发展的今天,北京书同文数字化公司以“书同文数码翰林”核心技术,实现了古籍与数字化的“联姻”,让中国典籍“通古今之变”。
因为互联网无边界,互联网上传播的中国典籍数字化无边界,中华文明无远弗界。
当代书同文:中文典籍数字化的旗舰
任继愈先生和季羡林先生是当代国学的两位巨星,也是给予了书同文中文典籍数字化事业谆谆教导和热情鼓励的恩师。任继愈先生为书同文公司题字“嘉惠学林”,季羡林先生称书同文的事业让典籍“如虎添翼”。
总经理张福煜先生介绍,书同文包括《四库全书》在内的中文典籍数据库,已经基本覆盖国内一线城市公共图书馆并陆续进入地级市图书馆,国内重点大学图书馆也成为书同文的基本用户。近年来,国外学者不断将目光聚焦北京书同文。德国历史最悠久的海德堡大学(http://www.uni-heidelberg.de)购买了书同文公司自主研发的中文古籍数字库《中国历代石刻史料汇编》,应用于校内中国历史文化研究领域。美国大峡谷州立大学(http://www.gvsu.edu/)和德国最大综合学术性图书馆——德国国立柏林图书馆 (http://www.sbb.spk-berlin.de),也购买了书同文研制的中文古籍数据库《四部丛刊》。美国哈佛、耶鲁等一些国外知名高校也已通过互联网使用书同文研发的中文典籍数据库。
截至目前,世界上已有数十家欧美公共图书馆及大学图书馆购买并使用了《四部丛刊》电子网络版,为这些国家的东方文化学者研究中国五千年灿烂文化提供了更加便捷深入的了解。
种种成功的实例说明,在技术发展日新月异的信息时代,书同文公司提供的技术与服务是值得信赖的,书同文的中文古籍数据库给国内外用户搭建了一个很好的平台,使得中华历史文化典籍在全球范围内的传播不受时空、地域的限制,可以无障碍地使用。
总经理张福煜特别强调,书同文公司的发展离不开一个人,这个人就是公司创始人、总裁张轴材先生。是他奠定了我国中文典籍数字化事业的坚实基础。
张轴材先生是文革后清华大学计算机系首批工学硕士,曾任国家科委信息所副总工程师、先后兼任教育部语言文字应用研究所客座研究员、国家二代证编码专家、美国在线(AOL)、微软(Microsoft)高级技术顾问,CNNIC互联网协会资源与政策工作委员会委员,主编出版了国家语言文字工作委员会绿皮书《古籍字频统计》和《中日韩常用汉字对比分析》,近年又担任了国际互联网顶级域名国际化的ICANN中文专家。
书同文公司之所以有今天,这与张轴材先生代表中国在国际汉字统一编码领域做出的杰出贡献密不可分。
早在上世纪80年代末,随着信息技术的发展,为了在网络上能正确无障碍地传输汉字,计算机里处理交换用的汉字代码需要有一套认同规则,中国建立起一个跨部委的工作组,由张轴材任工作组副组长,其工作内容是被列为“七五”攻关项目之一的汉字内码与数据类型标准化。
当时的情况是:国内“万码奔腾”,台湾已经流行BIG-5码,IBM、DEC、NEC、日立、富士通、AT&T等 大公司使用的汉字内码都不一样。“虽然那时还没有一个网络世界,但可以预见到如此发展,将来会变成阻碍沟通和发展的大问题。”更重要的是,我们必须掌握全 球信息化中文编码的话语权和主导权,这就好比是领土划界一样,你不去争,别人争到了,就没你的空间。更何况中文是国脉文化之本,有时就是“寸码必争”。
1988年,中国建立了通用国际代码联合会(ACCC)。1989年,在国际标准化组织(ISO)的会议上,中方代表大陆、台湾、香港和澳门正式提出中日韩统一编码的N480提案,并提出了具体方案,引起轩然大波。在国际上,最强烈反对提案的是日本。而美国作为许多大工业公司的代表,站在了支持的一方。
“在汉字的国际编码问题上,中方一直是主导,这一点毫无疑问。”张轴材称。1990年召开汉城特别会议,中日韩决定建立CJK-IRG,在进入CJK汉字认同甄别的实质性阶段,张轴材被任命为CJK-IRG的主编兼召集人。很快,在ISO的会议上开始讨论汉字编码的方案,产生了一个重要决议:以中国的多字符集为基础,生成字表。
虽然在字序问题上,曾经相持不下。但在不断讨论中,中日韩达成两点共识,一是按文字编码,而不是按国家、地域、语言编码;二是要按字形统一编码,而不是按字音、字义或具体的造型编码。结果在1990年ISO旧金山会议上,投票表决通过了在中国方案基础上形成的汉字统一编码标准。
正因为是ISO国际汉字编码方案主要参与人,张轴材先生受邀主持了《文渊阁四库全书》电子版工程,并担任工程技术总监之职。
书同文总裁张轴材在谈到“书同文公司典籍数字化的新进展”时曾深情表示:我们要记住的是,我们这一行,方向就是要“嘉惠学林”(任继愈题字)、就是要让更多的学者“如虎添翼”(季羡林语),我们本身不是文史专家,我们只是文史工作者的内容提供者(ICP)和服务提供者(SP)。我们的服务做得好不好,就要看我们是否满足使用者的需求,踏踏实实地向用户提供了高质量的(数字化)内容,以及服务到位的数字化技术功能。
张轴材这样说是有底气的。我国中文古籍数字化工程起步比欧美国家晚,比亚洲地区的日本、韩国晚,比中国的台湾和香港地区也晚,但经过20年持续发展,目前无论在规模和水平上都已远远超过海外。
从《文渊阁四库全书》电子版,到《四部丛刊》全文检索系统的成功发行,体现了中文古籍数字化技术的日趋成熟,也奠定了北京书同文作为中文典籍数字化领军企业的成功之路。
近些年来北京书同文不仅自主研发了许多中文古籍系列,也与中国第一历史档案馆、故宫博物院合作,陆续将珍藏于大内深宫的明清档案、馆藏珍本、陈设档册、各地方志进行了系统整理和全文数字化,相信不久的将来会开放并吸引更多的读者查阅。
数码翰林:现代苍颉泣鬼神
北京书同文开创的中文典籍数字化突破了技术壁垒,他们结合《文渊阁四库全书》中应用研发的技术体系,逐步成为书同文的核心技术——数码翰林。
上世纪末,典籍数字出版出现了两件标志性大事。一件是,1993 年《牛津字典》Oxford English Dictionary 斥资5500 万美元开始了大规模的修订计划,每季度都与项目进度平行地提供一个联机版http://www.oed.com/about/oed-online。一件是,1994 年正式发布的《大英百科全书网络版》EncyclopediaBritannica Online 作为互联网上第一部百科全书问世http://162.105.138.185/database/EB.htm。
这两项发展开创了规模化电子出版的先河,也让北京书同文人加快了中国典籍数字化道路的探索。
典籍数字化面临的新问题。任何事物在发展过程中总会遇到各种难题,同样,古籍数字化工作也存在不少问题,主要涉及古籍数字化统一标准和古籍数字化的真实再现。
首先看古籍数字化统一标准。比如,字形的问题。在古代典籍中,一个字有很多种写法,比如在对联“氷冷酒,一点,,两点,三点;丁香花,百头,千头,万头”中,“氷”即“冰”,可只有一点,如果在数字化的过程中,将其改写成通用的“冰”字,就使原来的对联缺少了韵味,也很难理解。
再 看古籍数字化的真实再现。古籍数字化的真实再现,是建立在正确理解原文基础上的文字转化,这对人才储备也提出了更高的要求。从业者必须是文理兼备的人才, 既要掌握计算机技术,又必须有深厚的国学功底。其中涉及到的国学功力,就有古籍中异体字关联、简繁体关系,正体异体关系,正字讹(伪)字关系,通假被通假 关系,古今字关系,新旧字形关系,中日字形关系,形近异义字,避讳字等。
北京书同文 公司集多年在中文信息化领域中所积累的技术、工程经验,结合多领域用户实际需求,形成自有的一套数字化整体解决方案及专业信息化、数字化软件——“数码翰 林”。它是对多文种信息资源进行采集、数字化制作、概括性信息数据(元数据)提取、全文内容结构化处理、信息组织、发布、检索,并可在网络环境下向公众提 供多种信息服务的集成性工具软件。“数码翰林”体系结构基于国际标准(Unicode,XML,Dubin Core),结合双引擎(OCR+FTR)驱动三大模块。
——“数码翰林”中的发布系统,可在Internet环境下,整合专著、学术论文、工具书、多媒体资源,为不同地域学者、读者提供足不出户、字字可查、句句可检、图图可视的信息服务,其特色为:
1. 分类浏览,资源分布一目了然;多文种、多形式资源(全文、图片、多媒体)共存一库。
2. 简繁、中日、异体文字关联性全文检索,同义词关联全文检索(可根据用户需求加入)。
3. 工具书与全文内容挂接(专业联机字典)。
4. 辅助阅读工具(放大镜、添加标点、书签、勘误、打印等)。
5. 鼠标手写输入检索文字。
——“数码翰林”中的电子编目员、数据转换器提供了标准元数据多种制作手段,及全文内容结构化置标,是实体资源(全文、图像、多媒体)提交到发布系统的桥梁,其特点为:
1. 对载有编目源信息的纸张载体文献,通过扫描使其成为电子图像文件,再通过OCR技术,将图像文字转换成数码文字,提供文字内容读写顺序的和还顺序的校对技术,整个过程不需人工录入。工作人员只需圈选有关信息(如题名、作者等),通过Dublin Core元数据定义,即可完成编目工作。
2. 兼容原有MARC数据转换。
3. 元数据项遵循Dublin Core定义。
4. 全文内容结构化置标工具,制作其章节目录信息。
5. 整合原有其他形式电子资源(txt,doc,s2),提交入库。
——“数码翰林”中的数码大师经过《四库全书》《四部丛刊》等数十亿古籍文字的数字化加工锻炼,在资源信息数字化制作过程中,提供了实用的,工程化的OCR数据加工,联机无纸校对生产线,并使得最难解决的古籍资源数字化成为现实,其特点为:
1. 自动手写识别,并建立汉字与字迹的对应关系。
2. 典籍版面竖排、多列注释文字原样恢复。
3. 联机无纸多种校对方式,提供多个候选字,无需输入,鼠标点击改正错误。
4. 生僻字、怪癖字解决方案。系统支持国际标准的编码体系ISO10646(UNICODE),解决古籍中出现的异体字、避讳字、八卦字符等。
5. 提供多种检查方式及错误重点提示方式,从而提高制作质量。
6. 实时性、可视化、方便宜用的管理工具,在线监控项目进度,设置一系列的项目参数,实现人员、数据、项目全程管理控制。
“数码翰林”系统,展现了北京书同文数字化技术的特色。
一是鉴于文献的重要性,坚持原文与全文并存对照的模式,在可能范围内实现保真。与此相关,必须坚持原版面竖排格式:
随着古籍数字化工作的进展,发现除古籍善本版式特点外,明清历史文献档案样本也愈加丰富和复杂。这些文献档案表现出与古籍善本不同的特点。例如:“上 谕”、“旨”、“硃批”、“圣祖”、“御笔”等字样出现时,这些文字书写都高于其他文字之上,以体现皇权的至高无尚;同样的原因,大臣在个人名字落款前, 也会用小字写“臣”。
这在现代横排版方式下是无法体现其历史信息的。这样,保持原版竖排(XML)就显得极其重要了。
同时,确保图象数据与XML数据的完整性。
二是彻底的网络展现,从C/S版过过渡到B/S。用户无需安装任何客户端软件。
三是提供基于Web的手写识别系统(书同文“巧笔”),用户无需记忆任何汉字书写和拆分的规则,特别有利于输入、查询罕用字或不明发音的汉字;同时还可以顺藤摸瓜地检索和输入各种关联字。汉字识别在服务器端实现-云计算的概念的初步实现。
四是维护目录的完整性。
古籍善本、历史文献档案不同于通常的搜索(无MetaData)。目录完整反映了其中分类和时序关系。读者通过浏览目录可以很快清楚地了解一套完整丛书或档案的全貌;而且有了这个目录信息,搜索/检索结果可以清晰地标明命中的出处。
五是跟踪与适应各类浏览器:选用B/S的代价。
B/S给读者带来的便利是不言而喻的,同时也附带了维护成本。市场竞争的结果必然迫使浏览器不同厂家不断升级改版。如何使B/S产品适用这些变化,做到兼容是不可回避问题。
六是多维助检。支持人名、地名、职官以及关联字检索。
七是全文检索自动关联简繁异。
工欲善其事,必先利其器,这个“器”就是书同文公司在多年实战中沉淀、汇聚下来的精湛技术。在移动互联网时代,北京书同文公司的“精湛技术”爆发了,在手机彩书、典籍数字化、古籍云服务等领域有颇多创意与建树。
前 几年彩信、短信百花争艳的时候,书同文推出了与众不同的,充满文化气息的“彩书”。这是一个书法化的信息服务或者是多页的彩色小册子,最主要的特点就是它 是非静态的。彩书的特点是传统文化与无线网络相结合。彩书不仅动感而且动态,一切由用户自定义,这是和静态图片下载最大的区别,一般的ICP提供的是内容,书同文提供的是软件加数据与引擎。
将先进科技与中华文化相结合,借以保存和弘扬中华文化,是世界各地华人的共同愿望。北京书同文公司把中文典籍数字化作为自己责无旁贷的使命。书同文深入这一领域20年,推动了新技术的开发,为古籍电子化、文献数字化、电子图书馆的发展打开了新途径,把中华文化奉献给世界。
《海淀创意产业》专刊