@柏晓鹏：《计算人文视阈下的计算语言学：现状和范式》

总结💡

一篇概论性质的文章，主要谈了现在计算语言学没有解决语言问题这个事。也说了现在深度学习失去了可解释性，这样就更不能解决语言问题了。作了一个例子，其实就是和消融实验或者对比实验差不多，就是哪个参数最有效果，也类似于随机森林比较一个特征重要性这样。

摘要

研究主题：本文探讨计算人文视阈下计算语言学的定位问题。
核心问题：
- 计算人文视阈下计算语言学的定位。
- 计算语言学的研究范式。
- 计算语言学与其他计算人文研究方向的关系。
主要观点：
- “计算人文”强调以计算技术解决人文学科研究问题。
- 当前计算语言学呈现工程化特征，处理语言作为数据，较少回应语言学问题。
- 尽管被视为语言学分支，但利用计算技术进行语言学研究的案例不多。
研究方法：
- 以文本可读性研究为例，提出利用计算技术研究语言学的范式。
结论：
- 计算语言学与其他计算人文研究方向应在统一范式下工作。
- 作为工具，其需要在有效性与可解释性间平衡，定位于“以人文为核心，以计算为工具”。

关键词：计算语言学；计算人文；数字人文；语言学；自然语言处理

1 从数字人文到计算人文

背景：
- 计算技术日益融入学术研究，人文领域开始接受数据驱动方法。
- “计算人文”强调计算技术作为工具，革新传统依赖个人经验的人文研究。
发展历程：
- 前身“人文计算”始于罗伯特·布萨的词语索引研究。
- 通过文本编码、数据库、计量分析等技术实现数字化呈现。
研究范式：
- 黄水清提出五阶段范式：问题定义、数据集构建、技术实现、问题求解、结果评价及呈现。
- 计算人文不仅是数据统计，更需利用数据解释人文学科问题。
本文目标：
- 探讨计算语言学与计算人文的关系。
- 分析计算语言学的现状、范式及作为研究工具的作用。

2 计算语言学的发展

2.1 计算语言学的定义

研究内容：
- 自动化处理自然语言，如语音转换、文本分类、翻译等。
- 支持数字人文转向文本知识挖掘。
学科定位：
- 与自然语言处理（NLP）定义重合，难以泾渭分明。
- 研究对象为语言，手段为计算技术，目的是自动化处理，研究过程涉及对语言的建模和对模型的评价。

2.2 计算语言学方法论的变迁

基于规则的方法：
- 基于规则的方法是理性主义（rationalism）方法，基于乔姆斯基关于语言是人脑内在功能（faculty）的假设。
- 依赖人工定义语法规则。
- 优点：解释力强；缺点：难以覆盖所有语言现象，规则系统易崩溃。
基于统计机器学习的方法：
- 经验主义方法，和认知语言学的假设一致。认为语言能力的获取是语言输入的结果。人们通过已有的语言数据对统计模型进行训练（training），将语言现象在语料库中的分布转化为统计模型的参数，然后用带有参数的统计模型去处理新的语言现象。
- 依赖语料库训练统计模型。
- 优点：健壮性强，预测性好，简单，适应性强；关键：特征工程。
基于深度神经网络的方法：
- 利用互联网海量数据，主流技术包括词嵌入、LSTM、预训练模型。
- 当前主流，表现优于统计方法。

2.3 计算语言学的主流研究范式

三个环节：
- 获取数据：统计方法需标注语料，深度学习利用互联网数据及预训练模型微调。
- 训练模型：估计数学公式参数。大语言模型参数规模巨大。
- 评测模型：用测试数据评估，指标包括准确率、召回率、BLEU等。
目标：优化算法在语言处理任务中的表现。

3 计算语言学与语言学的关系

现状：
- 计算语言学任务（如分词、词性标注、句法分析）多为工程障碍，而非语言学问题。
典型任务：
- 分词：识别汉语词边界，未回答“什么是词”。
- 词性标注：确定词性，面临汉语无形态变化的困难。
- 句法分析：构建层次结构，与语言学解释句法现象不同。
- 语义分析：包括词义消歧和语义角色标注，未深入语义学。
结论：
- 计算语言学的句法研究工作是在现有句法分析体系（一般是短语结构文法或依存句法）框架下，探讨如何将线性的句子自动解析为层次性的树状结构，语言学的句法研究工作则是构建句法规则体系，并且用句法体系来解释句法现象
- 计算语言学研究应当有一个以“语言/语言学研究”为核心，回应语言和语言学研究问题的研究范式

4 计算人文视阈下计算语言学研究范式：以文本可读性计算为例

4.1 文本可读性计算

定义：评估文本易读程度，分级阅读核心指标。

4.2 研究问题

核心问题：
- 一是哪些计算模型和方法可以用来解决这个问题；二哪些因素影响了文本的可读性。
- 词汇、句法和篇章这三种语言特征对文本可读性的影响如何。

4.3 构建语料库和获取语言学特征

语料：统编版语文教材语料库，31.5万字。
特征：词汇（25种）、句法（6种）、篇章（44种）。

4.4 自动分类实验

本文不以提高分类器的分类结果为目标，而是把分类器作为工具，用来测试文本语言特征对可读性的影响。
方法：用支撑向量机（SVM）测试特征影响，以学段为标签。

4.5 实验结果

数据：消融实验

特征类型	特征数量(个)	平均准确率
词汇	25	62.92%
句子	6	54.05%
篇章	44	65.21%
词汇+句子	31	63.23%
词汇+篇章	69	67.74%
句子+篇章	50	65.88%
词汇+句子+篇章	75	67.85%

结论：篇章特征影响最大，词汇次之，句法最小。

4.6 研究范式

四个步骤：
- 提出语言学问题。
- 获取相关特征。
- 转换为计算任务，设计实验。
- 分析结果，回应问题。

5 作为研究工具的计算语言学

5.1 语言资源建设

语料库：如人民日报语料库，分为通用/专用、共时/历时等。
知识库：如WordNet、HowNet，依赖专家知识。

5.2 文本分析技术

词法分析工具：

名称	分词(现代汉语/古代汉语)	词性标注	命名实体识别	支持语言
HanLP	现代汉语	提供	提供	Java、Python、C++
Jieba	现代汉语	提供	不提供	Java、Python、C++、R、Go
LTP	现代汉语	提供	提供	Python、Rust
THULAC	现代汉语	提供	不提供	C++、Python、Java
甲言	古代汉语	提供	不提供	Python
Stanza	现代汉语/古代汉语	提供	提供	Python

句法分析工具：

名称	短语结构分析	依存分析	支持语言
HanLP	不提供	提供	Java
LTP	不提供	提供	Python、Rust
suPar	提供	提供	Python
DDParser	不提供	提供	Python
StanfordCoreNLP	提供	提供	Java

语义分析：依赖句法分析，结果较差（如suPar最高71%）。

5.3 基于深层神经网络和预训练模型的技术

特点：端到端技术，开源框架如PyTorch、TensorFlow，模型如中文BERT。
应用：支持微调，但需开发人文专用模型。

5.4 技术的有效性和可解释性

问题：预训练模型有效性高但解释力弱。
建议：结合统计方法平衡有效性与可解释性。

6 结论

总结：
- 计算语言学应以语言学问题为核心，推动计算人文发展。
- 当前范式偏工程化，需转向“人文为问题，计算为方法”。
展望：
- 利用开源技术融入人文研究。
- 开发文本分析和专用模型，助力“新文科”建设。