@刘浏等:《数字人文视野下的古汉语实体歧义研究》
摘要
实体知识的自动识别是古文智能处理和古文数字人文研究的技术支撑。基于实体知识的数字人文研究需考虑古籍中普遍存在的实体歧义,否则难以得到准确可靠的数据和结论。本文以《春秋经传引得》为语料,考察了同名异指和异名同指两大类人名实体歧义。根据古文实体歧义消解的特殊性,提出了两类歧义的消解方法和思路。研究基于实体语境和时间知识,构建了消歧规则,并以先秦古汉语为实例进行了验证。方法在其他古汉语语料中的适用性值得探究。基于消歧后的语料,文章呈现了先秦人物的基本全貌,表明研究价值。
1 引言
- 背景:古籍数字化资源增长、古文智能处理技术进步,推动了以人名、地名为主的实体识别研究,识别技术、方法不断改进,效果逐渐提升。
- 发展:实体识别技术的进步使面向大规模古籍文本的实体知识自动获取越发高效,以实体知识为基础的数字人文研究也得以逐步开展,成为古籍文本数字人文中值得期待的发展方向。
- 问题:现有研究多简化处理,以实体词语代替实体知识,忽略古籍中大量存在的实体指称歧义(尤其是人名),难以保证研究结论的准确性。
- 研究意义:实体歧义的消解,尤其是大规模文本中实体歧义的自动消解,是古文数字人文研究深入开展前无法回避的话题,也是本文研究的意义和目的所在。
- 本文结构:主要分三个部分。首先介绍两类典型实体歧义,分析古汉语实体歧义的特殊性,探讨消解方法;其次以先秦古汉语实体歧义为例,在《春秋经传引得》语料基础上,结合具体实例分析基于规则的实体消歧可行性;最后使用该方法完成消歧,并在消歧语料基础上,从计量统计、影响力分析和数据可视化角度展现先秦人物基本全貌。
2 研究背景和语料介绍
2.1 实体歧义相关研究
- 定义:实体歧义指“一个命名实体指称项可对应到多个命名实体概念”。例如,《左传》中“吴王”可指“夫差”或“諸樊”。歧义实体词的指称因语境而异,实体消歧即判断特定语境下词语具体指称的实体概念。
- 研究现状(现代汉语/英语):
- 早期:以构建规则为主,利用实体上下文和外部知识。规则受限于特定领域,扩展性不高,但总体效果不错。
- 机器学习:关注开放领域。早期以聚类为主,将文本表示为向量,根据相似度消解。尝试了各类特征(如二元词语、社会化网络、外部知识)。
- 实体链接:将实体识别和消歧结合的新框架。先找出文本中实体指称,再与特定知识源(如维基百科)中的实体概念链接。关键是选择知识源中的候选实体(基于指称和候选实体相似度排名,特征选取很重要)。
- 深度学习:近年来进一步推进,与语义分析、实体关系抽取、跨语言实体消歧等问题联系密切。
- 古汉语研究现状:目前实体消歧极少有面向古汉语的研究。
- 原因一:缺乏适当规模的语料和知识源支撑。
- 原因二:古汉语实体歧义比现代汉语更复杂,消歧难度大。
2.2 语料选取和处理
- 语料来源:《春秋经传引得》。“春秋经传”是《春秋》、《春秋左氏传》、《春秋谷梁传》、《春秋公羊传》四部典籍合称。前期研究已完成数字化,全文共计320030字(含标点)。
- 特点:作为《汉学引得丛刊》特刊,包含正文和引得(索引)部分。引得部分包括词表和词表对应的全文语境。
- 优势:
- 人工消歧细致:词表对多义词设立多个同形词头,词头下语境互不交叉。人名实体消歧更细致,同名实体不仅区分词头和语境,词头本身还添加更详细的人名参考信息区分。(例:宋公(參:宋莊公)、宋公(參:宋共公)、宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)、宋宣公)。
- 专业性高:语料与语境的关联及引得本身的专业背景,使其成为研究古汉语实体歧义的优秀资源,保证了研究的可靠性,避免了古汉语专业问题争议。
- 研究补充:实体歧义研究需以实体识别为基础,古汉语实体识别研究多以“春秋”为对象。本研究以“春秋经传”为语料进行实体歧义探究,是对已有研究的有效补充。
3 古汉语中的实体歧义
3.1 两类实体歧义
- 定义:实体歧义可看作实体词语和实体概念间存在的多对一或一对多的关系。
- 同名异指歧义:一对多关系,一个实体词语可指称多个实体。
- 异名同指歧义:多对一关系,多个实体词语可指向同一个实体。
- 特点:两类歧义在古汉语中均十分常见,且常相互关联,构成复杂实体歧义网络(见图1)。
- 研究必要性与困难性:大量存在和复杂关联表明了古汉语实体歧义研究的必要性和消歧的困难性。
- 研究侧重:
- 现代语言处理:同名异指歧义关注更多(应用场景更广,解决难度相对低)。
- 古文(尤其先秦):异名同指歧义同样重要,因名词性实体(如“晋侯”、“宋襄公”等含爵位或尊称的实体名称)地位显著。
- 对数字人文意义:对于面向实体知识的古文数字人文研究,同时消解同名异指和异名同指两类歧义,是顺利开展研究并得到准确结论的重要前提。
3.2 古汉语实体消歧的特殊性
实体消歧是古汉语实体歧义研究的重要目标。不同于现代汉语或英语,古汉语文本中的实体消歧问题具有较强的特殊性,体现在歧义实体所在语料和歧义实体本身。
* (1) 固定的语料:古文信息处理和数字人文研究主要以传世古籍文本为语料来源。特定研究问题和对象可选文本语料总体固定(如先秦实体研究,合适语料基本以《春秋》及三传为主)。有限语料带来相对固定的实体歧义,研究因而不可能、也不需要像现代汉语那样关注开放领域问题。
* 策略:在此前提下,充分利用前人研究成果,获取语料外部实体知识,构建基于规则的消歧方法以获取更准确结果,成为最实际可行的研究思路。
* (2) 较小的语料规模:与现代汉语研究相比,古汉语实体消歧可获取语料规模较小(如《春秋经传引得》仅32万余字)。
* 影响:这使得现代汉语常用的机器学习方法(如文本聚类或实体链接)很难发挥理想效果。
* (3) 较多的歧义数量:
* 同名异指:现代汉语待消解实体一般只含2个歧义;古汉语情况更复杂,名词性实体带来大量同名异指,歧义数量多(《春秋经传引得》中一个实体词最多可含15种同名异指歧义,见表1)。
* 语料稀疏:大量歧义实体对应小规模语料,导致语料中多数歧义实体只对应一两个句子。
* 挑战:面对复杂歧义问题,仅利用一两个句子内容而不借助外部知识,显然难获准确消歧结果。
* 关键:如何有效利用外部知识来减少歧义的复杂性。
3.3 古汉语实体消歧方法探讨
- 特点:语料固定、规模小、歧义数量多等特点,导致机器学习方法用于古汉语实体消歧难度相当高。利用外部实体知识构建规则的方法则更为适合。
- (1) 古汉语实体消歧的对象:根据特殊性,可从另一角度将实体歧义分为两类。
- 跨典籍歧义:歧义只存在于不相关典籍间。如“孟子”在《春秋》指鲁惠公原配夫人,在《孟子》指儒家思想家孟轲。此类歧义通过限定典籍范围即可完成消解。
- 单部典籍内部歧义:需上下文语境帮助消解。如“晋侯”可指“晋成公”、“晋文公”等,需据语境区分。此类是本文关注重点。
- (2) 实体消歧的思路:以上两类消歧中,本文主要关注单部典籍内部的实体消歧。
- 核心思路:围绕和利用实体词所在的上下文语境,将实体消歧转化为对实体词语所在语境的消歧。
- 同名异指消解:将出现歧义实体词的语境划分为多个类别,每个类别指称一个实体(见表2)。
- 异名同指消解:将包含多个实体词语的语境合并为一个类别,使其指称同一个实体(见表3)。
- 实现方式:通过构建规则,结合实体上下文语境特点,借助实体外部知识可有效实现实体歧义的自动消解。
- 同名异指消解关键(基于时间知识):由于古籍中同一时间段一般不会出现同名现象,可借助实体语境的时间知识来消解歧义。例:“晋侯”指称的不同实体存在于不同时间段,且时间段互不交叉。可直接通过标注“晋侯”所在语境的时间,根据时间段划分语境类别,实现歧义消解。
4 古汉语同名异指消歧规则初探
本文阐述了古汉语实体歧义特点及最适合的消歧方法,并提出使用实体语境时间知识消解同名异指歧义的基本思路。本研究将以先秦古汉语实体歧义为例,通过细化和制定相关规则,结合典型实例,验证该方法在消解同名异指歧义时的可行性和有效性。
- 语料:《春秋经传引得》,包含4695个人名实体词,共表示1421个人物。对于研究先秦古汉语实体歧义,该语料已足够充分。
4.1 《春秋》的时间表示
- 《春秋》使用鲁国国君的谥号加年份来表示年号。
- 转换:这些年号与公元纪年相互对应(见表4)。可将《春秋经传引得》所有语境发生的时间以公元纪年方式表示,利于后续消歧研究中进行时间比较。
- 示例:{桓公十二年} 1 十有二年,春,正月。 2 夏,六月,壬寅,公會紀侯莒子盟于歐蛇。 左十二年,夏,盟于曲池,平杞莒也。
4.2 语境的时间标注
- 方法:完成语料中年号和公元纪年转换后,自动查找并标注《春秋经传引得》中每一个实体词头下,所有语境在原文中对应的时间。
- 示例(完成标注后):晋侯(參:晉襄公) 晉侯敗狄于箕 前627年 ... 公及晉侯盟 前614年
4.3 基于时间规则的两类同名异指歧义消解
- 前提:标注语境时间后,可得到语境所属实体词的时间区间。如“晋侯(參:晉襄公)”的时间区间是[前614年:前632年]。
- 要求:使用时间规则进行同名异指歧义消解需满足一个要求,即同名实体词之间的时间区间不能交叉。本文以《春秋经传引得》为语料,其中同名异指歧义实体均满足此要求。
- 分类处理:根据实体歧义数量及实体语境规模,同名实体不同指称下的实体时间区间可能有较大间隔,也可能基本连续。
- (1) 基于时间间隔的歧义消解:
- 条件:当实体歧义数量较少或实体语境规模较小时,歧义实体的时间区间间隔较为明显。
- 方法:利用这些间隔实现语境分类,可迅速实现同名异指歧义的消解。
- 示例:“赵孟”在《春秋》中有四个歧义指称(赵武、赵襄子、赵鞅、赵盾)。对“赵孟”所属语境时间标注后统计(见表5),发现该词出现的年份不连续,甚至跨度很大(见图2)。语境分布鲜明地分为四个部分(四个时间区间),对应四个不同实体。可通过时间区间的间隔实现语境划分,从而实现歧义消解。
- (2) 基于时间知识的歧义消解:
- 条件:当实体歧义数量较多或实体相关语境数量较多时,很难从语境时间分布中找出明显时间间隔,消解需借助额外时间知识。
- 示例:如“晋侯”(见图3),歧义数量多,难以在时间分布上准确区分间隔。“郑伯”、“齐侯”等也类似(见图4、图5)。
- 方法:需借助外部知识来划分时间区间。根据鲁国国君年号转换方式,可同样对“晋侯”、“郑伯”、“齐侯”等进行在位年份转换。
- 示例:“郑伯”对应14个实体的在位年份(见表6)。根据此时间区间可划分得到“郑伯”指向的14个实体的所属语境,完成消歧。
- 适用性:此方法同样适用于“晋侯”、“齐侯”这类表示诸侯的实体词。对其他人名实体,可通过类似百科知识构建语境年份对照表实现消歧。
- (1) 基于时间间隔的歧义消解:
- 总结:
- 对于同名异指歧义实体,通过语境的时间间隔或实体相关时间知识(如在位时间)构建规则,可有效消解歧义。
- 时间获取:《春秋》这类编年体古籍,语境时间获取较容易;其他类型古籍,可结合机器学习方法自动识别实体语境中的时间实体,并转换为可用语境时间。
- 知识获取:实体相关时间知识可从《汉语大词典》、《春秋左传词典》为主的词典或百科中自动获取。
- 优点:基于规则的方法可保证消歧准确性,也可为异名同指歧义的消解提供可靠知识来源。
5 基于消歧实体的春秋人物概貌
- 意义:消歧后得到的实体知识更加准确,以此为基础进行的实体知识挖掘和数字人文研究也将得到更可靠的结果。
- 本研究:对《春秋经传引得》中所有人名实体进行了歧义消解,并对消歧后的实体进行了计量统计、影响力分析和数据可视化呈现,从整体上描绘出春秋时期的人物概貌。
5.1 春秋人物异名解析
- 数据:《春秋经传引得》中包含4695个人名实体词,共表示1421个人物。
- 普遍性:875个人物(占61.58%)有2个以上名称。超过188个(近30%)人物有3个以上名称。超过87个人物有4个以上名称。表明该时期异名同指现象普遍且复杂。
- 反映内容:异名同指现象实际反映了春秋时期人物的成长和经历。如异名数目排第一的“士会”还有“士季、随会、随季、范子、范会、武季、随武子、范武子、会”等名称。
- “士会”:表明父之“氏”和他自己“名”。
- “随会、范会”:因被封于“随”和“范”后以封地为氏。
- “士季、随季”:表明他在家族中排行(四子)。
- “武季、随武子、范武子”:根据“谥号”对他的尊称。
- 推论:通过对“士会”异名分析,可发现其丰富人生经历和较高社会地位。《春秋》中异名数量较多的人物大多如“士会”一样有自己封地和相应谥号,在当时具较高社会影响力。人物异名统计相关数据也支持此论断(异名数量排名靠前人物大多是大诸侯和地位显赫贵族,见图6、表7)。
- 结论:从一定程度上可认为,人物异名数量越多,其人生经历越丰富,社会地位越高。
5.2 春秋人物影响力分析
- 异名数量可看出社会地位,但不能准确反映对时代的影响力。
- 衡量方法:可参考文献计量思路,通过其在语料中出现的次数来计量。
- 前提:此计量必须基于消歧后的统计数据才能保证准确。
- 对比分析:根据实体消歧后的语料,统计《春秋经传引得》中人物出现次数分布(见表8),与消歧前数据(见表9)比较,可发现实体歧义消解对数字人文研究的重要影响。
- 发现:
- 排名变化:绝大多数人物排名出现较大变化。
- 重要人物凸显:“晋文公、齐桓公”等消歧前排名不靠前,消歧后跃居前列,恰与他们在“春秋”时代的影响力相符,符合其“春秋五霸”地位。
- “公孙侨”(子产)始终是出现次数最多者(“春秋第一人”)。
- 齐国君主(齐景公、齐懿公、齐桓公)排名靠前(3-5名),展现齐国强大实力和对鲁国影响力。
- “郑庄公”高居第11位,无愧“春秋三小霸之首”地位。
- 其余实体也都是“春秋”中重要人物。
- “赵氏”显著:晋国大夫赵盾、其孙“赵氏孤儿”赵武、赵武之孙赵鞅均排名靠前。与赵武关系密切的韩起排名也很高。表明“赵氏”、“韩氏”在晋国显赫,其重要地位也预示春秋末期“三家分晋”的必然性。
- 可视化:根据消歧后人物出现次数统计数据,可通过词云形式进行可视化展示(见图7),对“春秋”人物有更直观了解。图中实体字号与出现次数有关,字号越大说明出现次数越多。排名前200的人名实体均包含在图中,可看作“春秋”人物的一个缩影。
6 结论
- 对于以实体知识为基础的数字人文研究,知识的准确与否决定了相关研究结论是否可靠。
- 本文以《春秋》中的人名歧义为例:
- 一方面发现了歧义存在的普遍性和歧义消解的必要性。
- 另一方面也验证了基于规则的方法在歧义消解问题中的可行性。
- 本文贡献:
- 通过人物异名数来考察其人生经历和社会地位,说明了消歧后的实体知识可以为古文数字人文研究提供新的研究视角。
- 通过对出现次数排名靠前人物进行的统计分析,验证了消歧后的实体知识可以带来更加准确的分析结果。
- 展望:通过获取更大规模的消歧实体语料和相应的实体知识,可以期待更加丰富同时更加可靠的古文数字人文研究。