图1
■刘凌 刘志基
中国是一个历史悠久的多民族国家,很多民族在不同历史时期创制并使用自己的民族文字,形成了数量巨大、内容丰富、各具特色的少数民族古文字文献。这些文献是研究相关民族的语言文字、历史文化的最重要的一手资料,承载着各民族独特的血脉,更可与汉文典籍相互勘正补充,具有特殊的文化和学术价值;它们可以真实、全面地揭示各民族关系史,对增强民族团结、维护国家统一、筑牢中华民族文化共同体具有无可替代的作用。
从二十世纪九十年代至本世纪初的十余年间,这些珍贵的民族古文字文献经历了一个发掘整理的高潮。大量民族古籍获得抢救,其中一部分得到整理、译注与出版,主要表现在满文、藏文、西夏文、蒙古文、彝文、纳西东巴文、水文等文献的整理刊布上。但已抢救资源的现状并不乐观,突出表现在:已抢救资源因缺少专业整理而在各机构大量闲置;一部分古籍老化、破损严重,缺少保护和修复条件;已出版文献多采取直接影印形式,抢救大于整理。在传统模式下,民族古文献的传承与开发已面临困境。
幸运的是,经过近二三十年的发展,运用数字化、智能识别手段进行民族古文字文献保护和开发已成大势,相比传统模式取得了诸多进展。
已有的民族古文字文献数字化和智能化建设情况,可以从四个方面加以述评。
一是民族古文献原貌保真式数字存储。即对民族古文献进行缩微、电子扫描等数字化制作、存储,实现部分民族古文献原貌的保存,这是当前民族古文献数字化的主要方式,着重于资源抢救和保护。
这类成果普遍存在的问题是:对数字资源缺少系统的整理、校勘与注释,文献编目、索引做不到充分匹配,各单位制作的数字图像质量与整理水平也参差不齐。
二是民族古文字处理系统开发。包括民族古文字在国际标准字符集的编码、字库建设、文字输入与检索实现,以及民族古文字排版系统开发、字形标准化等,这方面的成果极其丰富。
然而,对于民族古文字处理系统的研发,各家都有自己的解决方案,可以满足一定范围的使用,但标准不统一、技术不兼容,难以通用共享。另外,大多数文字整理是基于字典、辞书等二手资料,忽略了对面貌复杂的一手文献的精细化整理,导致文字处理系统不能满足实际需要。
三是民族古文献数据库建设。其中可以分成三大类:民族古文献书目数据库、图像数据库和全文数据库。各机构基本上都是先对古文献进行编目、扫描整理原文图像,然后以书目数据库与原文图像相挂接的模式实现数字化。已有成果集中在材料大宗的藏文、蒙文、西夏文、东巴文、彝文等民族古文献数据库建设上。也有部分民族古文献建立了全文数据库,如藏文典籍和满文档案。
在数据库建设中,普遍存在着著录标准、书目分类法标准、索引标准不统一的情况;尤其是图像数据,存储格式标准、数字化影像标准不兼容等技术问题,严重影响资源的检索利用和共享。此外,各单位资源重复建设、彼此不开放,也是亟待解决的问题。
四是民族古文字智能识别研究。目前多种民族古文字都在积极进行文字识别技术的探讨,各家研究最大的关注点,是希望利用图像识别技术实现民族古文献从数字图像自动、批量转换为数字文本,从而大规模建设全文数据库,实现文献批量翻译,满足共享与开发需求。比较成功的例子是中国第一历史档案馆2018年公布的“满文档案图像识别软件系统”,该系统实现了手写体满文批量识别。
但目前能够实现规模化文字图像识别的民族古文字极少,文字识别带来的实际产出也很少。主要问题有二:首先,文字识别的共同思路,是使用计算机切分、提取字的特征,使其与机器中预先存放的特征集(字库)进行匹配、判别,从而将字图自动转换成文本代码。这需要有预先建立的字库作为训练样本和测试标准,但识别技术研究者所建立的样本数据库容量极小、样本选择不科学,相较民族古文献的实际复杂情况和巨大数量,根本无法支撑起真实存在的民族文字材料的识别。其次,在文字识别的目标上,仅关注文字释读和文献的批量翻译,未能充分发掘文字识别带来的多方面效益。
综上可见,民族古文献数字化建设具备了一定基础,但整体而言操作有欠条理,投入与产出不成比例,迄今还集中在资料的抢救、整理、输入、排印等初级层面。如何充分借力数字化和智能化手段推进民族古文字相关研究,仍旧是一个严峻的课题。今后的努力方向,至少可以包括以下三个方面。
首先是统一标准,实现数字资源共存共享。数字化建设在多个方面需要统一标准。一是文字处理标准的统一。各类民族古文字的字符集,都应争取在国际字符集标准中编码,暂时不能编码者,应尽量使用统一字体,或提供跨字体转换的基础条件。二是文献各级分类标准的统一,包括著录标准、书目分类法标准、索引标准,以及对文献内部的字词意义分类、文献类型分类标准等。三是语料的同义认同。不同种类的民族古文字材料,如要实现各种内在关联,就要在共同的分类框架下,通过概念层面的意义分类、语言文字层面的同义系联,实现材料的逐级类聚,使多文种、多类型文献中的语言文字单位找到彼此的同义对应项,从而贯通各类材料,打通数据库内部所有数据的关联。四是数字化处理程度的统一,统一的标准是就高不就低。做到上述标准统一,是实现资源共享的基础。
另外,应当借助文字智能识别,打通民族古文字的内在关联。民族古文字输入数据库有两种形式,一是文字输入,二是保真的原文图像输入。前者借助电脑字符集的编码,可被计算机自动识别;而图像载体形式的古文字,目前唯有借助图像识别技术,才能创建计算机可以自动识别的信息码,打通数据库全部数据链,进而实现民族文字内部数字资源的彻底关联。
我们以纳西族东巴文为例来做简单说明。东巴文中表示“杉树”的字,其代表性字形有十来种,可以分为三组:第一组(见图3,图4,图5),第二组(见图6,图7,图8),第三组(见图9,图10)。三组字形分别出自白地、丽江和鲁甸三个地区的东巴经文,呈现出明显的地域特征;而每一组中的字形,又出自同一地域的不同书手,呈现出不同的风格。在对上述文献用字进行一字一码的图像识别后,每一个字形所携带的地域特征、书手风格、文献类型、语境、字际关系等都能够被计算机自动处理,则所有字形图像与其他数字资料的数据关联就能够被打通,智能处理就具有了无限空间。如此处,即可借助图像识别对东巴经文的地域特征、书手特征进行谱系分类研究。反过来,如果采用以往的识别思路,最终结果就是将上述八个字形归属于“杉树”这一抽象的文字单位,识别的意义就只能是局限在经文的解读对译上。
再及,智能化的助力,可以推动大中华文化视野下的多民族文字综合研究。我国的民族古文字,多数是在以汉字文化为基石的中华民族多元文化融合的历史环境中发生、发展、演变的。这也就意味着,只有将民族古文字相关研究置于中华民族多元文化融合之系统中展开,才能揭示其全貌,也才能在彼此观照中获得对自身更深入的理解。
知识系统的充分系联与普及,同样要仰赖数字化与智能识别手段。可举一例来说明。水书是水族民间选择时日、择吉避凶的查阅用手抄本,其占卜择日的概念、原理、体系、表达程式等多数来自汉族通书,而汉族通书的源头,可以上溯到先秦日书,如楚简、秦简日书。这是纵向的观察。横向来看,汉族通书明清时期曾在南方少数民族地区广泛传播,水、侗、彝、布依等多个民族的古文献中,都出现通书内容,它们都来自汉文化,并形成了各自的择吉特点。如果我们按前文所说,以统一的标准完成了这些古文字材料的意义逐级分类系联,并实现材料的图像智能识别,那么就可以通过其中任何一种材料的图像识别,实现相同义类的多种古文字材料的系联呈现。
如水书“赤口时”篇(图1),识别出对应文字为:“春三月辰午时,夏三月午时,秋三月戌时,冬三月丑午时凶,口舌。”意为:新娘忌在这些时辰进亲入宅,犯之则有口舌纷争。该识别结果又可自动关联涉及婚嫁宜忌的其他古文字材料,如睡虎地秦简甲种日书96-101简内容:“春三月辰,夏三月未,秋三月戌,冬三月丑……不可以取妇、家(嫁)女……”;彝文日书《运尼司波》(图2)内容:“冬三月那一季,属牛这天不吉”。这样,不同民族、不同时空的择日条例反映出大体相通的内涵——冬季三个月的丑日婚嫁不吉。这些材料的类比呈现,对于梳理多民族日书的传承流变,其价值是不言而喻的。
***
民族古文字研究的数字化,需要有支持文字识别的大数据平台提供后台支撑,为机器学习与迭代升级不断提供丰富素材;而大数据建设的成果,需借力各种智能化方式,充分开发利用,才能被全面盘活,二者是相互促进、彼此支撑的。在此平台之上,中华民族多元文化融合视野下的民族古文字研究,定将得到长足的发展。
(作者分别为华东师范大学中国文字研究与应用中心副教授、教授)