@刘浏等:《数字人文视野下的古汉语实体歧义研究》

摘要

实体知识的自动识别是古文智能处理和古文数字人文研究的技术支撑。基于实体知识的数字人文研究需考虑古籍中普遍存在的实体歧义,否则难以得到准确可靠的数据和结论。本文以《春秋经传引得》为语料,考察了同名异指和异名同指两大类人名实体歧义。根据古文实体歧义消解的特殊性,提出了两类歧义的消解方法和思路。研究基于实体语境和时间知识,构建了消歧规则,并以先秦古汉语为实例进行了验证。方法在其他古汉语语料中的适用性值得探究。基于消歧后的语料,文章呈现了先秦人物的基本全貌,表明研究价值。

1 引言

2 研究背景和语料介绍

2.1 实体歧义相关研究

2.2 语料选取和处理

3 古汉语中的实体歧义

3.1 两类实体歧义

3.2 古汉语实体消歧的特殊性

实体消歧是古汉语实体歧义研究的重要目标。不同于现代汉语或英语,古汉语文本中的实体消歧问题具有较强的特殊性,体现在歧义实体所在语料和歧义实体本身。
* (1) 固定的语料:古文信息处理和数字人文研究主要以传世古籍文本为语料来源。特定研究问题和对象可选文本语料总体固定(如先秦实体研究,合适语料基本以《春秋》及三传为主)。有限语料带来相对固定的实体歧义,研究因而不可能、也不需要像现代汉语那样关注开放领域问题。
* 策略:在此前提下,充分利用前人研究成果,获取语料外部实体知识,构建基于规则的消歧方法以获取更准确结果,成为最实际可行的研究思路。
* (2) 较小的语料规模:与现代汉语研究相比,古汉语实体消歧可获取语料规模较小(如《春秋经传引得》仅32万余字)。
* 影响:这使得现代汉语常用的机器学习方法(如文本聚类或实体链接)很难发挥理想效果。
* (3) 较多的歧义数量:
* 同名异指:现代汉语待消解实体一般只含2个歧义;古汉语情况更复杂,名词性实体带来大量同名异指,歧义数量多(《春秋经传引得》中一个实体词最多可含15种同名异指歧义,见表1)。
* 语料稀疏:大量歧义实体对应小规模语料,导致语料中多数歧义实体只对应一两个句子。
* 挑战:面对复杂歧义问题,仅利用一两个句子内容而不借助外部知识,显然难获准确消歧结果。
* 关键:如何有效利用外部知识来减少歧义的复杂性。

3.3 古汉语实体消歧方法探讨

4 古汉语同名异指消歧规则初探

本文阐述了古汉语实体歧义特点及最适合的消歧方法,并提出使用实体语境时间知识消解同名异指歧义的基本思路。本研究将以先秦古汉语实体歧义为例,通过细化和制定相关规则,结合典型实例,验证该方法在消解同名异指歧义时的可行性和有效性。

4.1 《春秋》的时间表示

4.2 语境的时间标注

4.3 基于时间规则的两类同名异指歧义消解

5 基于消歧实体的春秋人物概貌

5.1 春秋人物异名解析

5.2 春秋人物影响力分析

6 结论