@柏晓鹏:《计算人文视阈下的计算语言学:现状和范式》
总结💡
一篇概论性质的文章,主要谈了现在计算语言学没有解决语言问题这个事。也说了现在深度学习失去了可解释性,这样就更不能解决语言问题了。作了一个例子,其实就是和消融实验或者对比实验差不多,就是哪个参数最有效果,也类似于随机森林比较一个特征重要性这样。
摘要
- 研究主题:本文探讨计算人文视阈下计算语言学的定位问题。
- 核心问题:
- 计算人文视阈下计算语言学的定位。
- 计算语言学的研究范式。
- 计算语言学与其他计算人文研究方向的关系。
- 主要观点:
- “计算人文”强调以计算技术解决人文学科研究问题。
- 当前计算语言学呈现工程化特征,处理语言作为数据,较少回应语言学问题。
- 尽管被视为语言学分支,但利用计算技术进行语言学研究的案例不多。
- 研究方法:
- 以文本可读性研究为例,提出利用计算技术研究语言学的范式。
- 结论:
- 计算语言学与其他计算人文研究方向应在统一范式下工作。
- 作为工具,其需要在有效性与可解释性间平衡,定位于“以人文为核心,以计算为工具”。
关键词:计算语言学;计算人文;数字人文;语言学;自然语言处理
1 从数字人文到计算人文
- 背景:
- 计算技术日益融入学术研究,人文领域开始接受数据驱动方法。
- “计算人文”强调计算技术作为工具,革新传统依赖个人经验的人文研究。
- 发展历程:
- 前身“人文计算”始于罗伯特·布萨的词语索引研究。
- 通过文本编码、数据库、计量分析等技术实现数字化呈现。
- 研究范式:
- 黄水清提出五阶段范式:问题定义、数据集构建、技术实现、问题求解、结果评价及呈现。
- 计算人文不仅是数据统计,更需利用数据解释人文学科问题。
- 本文目标:
- 探讨计算语言学与计算人文的关系。
- 分析计算语言学的现状、范式及作为研究工具的作用。
2 计算语言学的发展
2.1 计算语言学的定义
- 研究内容:
- 自动化处理自然语言,如语音转换、文本分类、翻译等。
- 支持数字人文转向文本知识挖掘。
- 学科定位:
- 与自然语言处理(NLP)定义重合,难以泾渭分明。
- 研究对象为语言,手段为计算技术,目的是自动化处理,研究过程涉及对语言的建模和对模型的评价。
2.2 计算语言学方法论的变迁
- 基于规则的方法:
- 基于规则的方法是理性主义(rationalism)方法,基于乔姆斯基关于语言是人脑内在功能(faculty)的假设。
- 依赖人工定义语法规则。
- 优点:解释力强;缺点:难以覆盖所有语言现象,规则系统易崩溃。
- 基于统计机器学习的方法:
- 经验主义方法,和认知语言学的假设一致。认为语言能力的获取是语言输入的结果。人们通过已有的语言数据对统计模型进行训练(training),将语言现象在语料库中的分布转化为统计模型的参数,然后用带有参数的统计模型去处理新的语言现象。
- 依赖语料库训练统计模型。
- 优点:健壮性强,预测性好,简单,适应性强;关键:特征工程。
- 基于深度神经网络的方法:
- 利用互联网海量数据,主流技术包括词嵌入、LSTM、预训练模型。
- 当前主流,表现优于统计方法。
2.3 计算语言学的主流研究范式
- 三个环节:
- 获取数据:统计方法需标注语料,深度学习利用互联网数据及预训练模型微调。
- 训练模型:估计数学公式参数。大语言模型参数规模巨大。
- 评测模型:用测试数据评估,指标包括准确率、召回率、BLEU等。
- 目标:优化算法在语言处理任务中的表现。
3 计算语言学与语言学的关系
- 现状:
- 计算语言学任务(如分词、词性标注、句法分析)多为工程障碍,而非语言学问题。
- 典型任务:
- 分词:识别汉语词边界,未回答“什么是词”。
- 词性标注:确定词性,面临汉语无形态变化的困难。
- 句法分析:构建层次结构,与语言学解释句法现象不同。
- 语义分析:包括词义消歧和语义角色标注,未深入语义学。
- 结论:
- 计算语言学的句法研究工作是在现有句法分析体系(一般是短语结构文法或依存句法)框架下,探讨如何将线性的句子自动解析为层次性的树状结构,语言学的句法研究工作则是构建句法规则体系,并且用句法体系来解释句法现象
- 计算语言学研究应当有一个以“语言/语言学研究”为核心,回应语言和语言学研究问题的研究范式
4 计算人文视阈下计算语言学研究范式:以文本可读性计算为例
4.1 文本可读性计算
- 定义:评估文本易读程度,分级阅读核心指标。
4.2 研究问题
- 核心问题:
- 一是哪些计算模型和方法可以用来解决这个问题;二哪些因素影响了文本的可读性。
- 词汇、句法和篇章这三种语言特征对文本可读性的影响如何。
4.3 构建语料库和获取语言学特征
- 语料:统编版语文教材语料库,31.5万字。
- 特征:词汇(25种)、句法(6种)、篇章(44种)。
4.4 自动分类实验
- 本文不以提高分类器的分类结果为目标,而是把分类器作为工具,用来测试文本语言特征对可读性的影响。
- 方法:用支撑向量机(SVM)测试特征影响,以学段为标签。
4.5 实验结果
- 数据:消融实验
特征类型 | 特征数量(个) | 平均准确率 |
---|---|---|
词汇 | 25 | 62.92% |
句子 | 6 | 54.05% |
篇章 | 44 | 65.21% |
词汇+句子 | 31 | 63.23% |
词汇+篇章 | 69 | 67.74% |
句子+篇章 | 50 | 65.88% |
词汇+句子+篇章 | 75 | 67.85% |
- 结论:篇章特征影响最大,词汇次之,句法最小。
4.6 研究范式
- 四个步骤:
- 提出语言学问题。
- 获取相关特征。
- 转换为计算任务,设计实验。
- 分析结果,回应问题。
5 作为研究工具的计算语言学
5.1 语言资源建设
- 语料库:如人民日报语料库,分为通用/专用、共时/历时等。
- 知识库:如WordNet、HowNet,依赖专家知识。
5.2 文本分析技术
- 词法分析工具:
名称 | 分词(现代汉语/古代汉语) | 词性标注 | 命名实体识别 | 支持语言 |
---|---|---|---|---|
HanLP | 现代汉语 | 提供 | 提供 | Java、Python、C++ |
Jieba | 现代汉语 | 提供 | 不提供 | Java、Python、C++、R、Go |
LTP | 现代汉语 | 提供 | 提供 | Python、Rust |
THULAC | 现代汉语 | 提供 | 不提供 | C++、Python、Java |
甲言 | 古代汉语 | 提供 | 不提供 | Python |
Stanza | 现代汉语/古代汉语 | 提供 | 提供 | Python |
- 句法分析工具:
名称 | 短语结构分析 | 依存分析 | 支持语言 |
---|---|---|---|
HanLP | 不提供 | 提供 | Java |
LTP | 不提供 | 提供 | Python、Rust |
suPar | 提供 | 提供 | Python |
DDParser | 不提供 | 提供 | Python |
StanfordCoreNLP | 提供 | 提供 | Java |
- 语义分析:依赖句法分析,结果较差(如suPar最高71%)。
5.3 基于深层神经网络和预训练模型的技术
- 特点:端到端技术,开源框架如PyTorch、TensorFlow,模型如中文BERT。
- 应用:支持微调,但需开发人文专用模型。
5.4 技术的有效性和可解释性
- 问题:预训练模型有效性高但解释力弱。
- 建议:结合统计方法平衡有效性与可解释性。
6 结论
- 总结:
- 计算语言学应以语言学问题为核心,推动计算人文发展。
- 当前范式偏工程化,需转向“人文为问题,计算为方法”。
- 展望:
- 利用开源技术融入人文研究。
- 开发文本分析和专用模型,助力“新文科”建设。