@柏晓鹏:《计算人文视阈下的计算语言学:现状和范式》

总结💡

一篇概论性质的文章,主要谈了现在计算语言学没有解决语言问题这个事。也说了现在深度学习失去了可解释性,这样就更不能解决语言问题了。作了一个例子,其实就是和消融实验或者对比实验差不多,就是哪个参数最有效果,也类似于随机森林比较一个特征重要性这样。

摘要

关键词:计算语言学;计算人文;数字人文;语言学;自然语言处理

1 从数字人文到计算人文

2 计算语言学的发展

2.1 计算语言学的定义

2.2 计算语言学方法论的变迁

2.3 计算语言学的主流研究范式

3 计算语言学与语言学的关系

4 计算人文视阈下计算语言学研究范式:以文本可读性计算为例

4.1 文本可读性计算

4.2 研究问题

4.3 构建语料库和获取语言学特征

4.4 自动分类实验

4.5 实验结果

特征类型 特征数量(个) 平均准确率
词汇 25 62.92%
句子 6 54.05%
篇章 44 65.21%
词汇+句子 31 63.23%
词汇+篇章 69 67.74%
句子+篇章 50 65.88%
词汇+句子+篇章 75 67.85%

4.6 研究范式

5 作为研究工具的计算语言学

5.1 语言资源建设

5.2 文本分析技术

名称 分词(现代汉语/古代汉语) 词性标注 命名实体识别 支持语言
HanLP 现代汉语 提供 提供 Java、Python、C++
Jieba 现代汉语 提供 不提供 Java、Python、C++、R、Go
LTP 现代汉语 提供 提供 Python、Rust
THULAC 现代汉语 提供 不提供 C++、Python、Java
甲言 古代汉语 提供 不提供 Python
Stanza 现代汉语/古代汉语 提供 提供 Python
名称 短语结构分析 依存分析 支持语言
HanLP 不提供 提供 Java
LTP 不提供 提供 Python、Rust
suPar 提供 提供 Python
DDParser 不提供 提供 Python
StanfordCoreNLP 提供 提供 Java

5.3 基于深层神经网络和预训练模型的技术

5.4 技术的有效性和可解释性

6 结论