@雷蕾等《AlphaReadabilityChinese:汉语文本可读性工具开发与应用》

摘要

【背景】文本可读性是文本的重要语言特征,已被广泛应用于多个学科的研究。现有可读性研究大多聚焦于英语文本可读性指标和工具的开发,而针对汉语的研究尚处于起步阶段。另外,相关研究多采用词汇和句法等表层特征,且主要聚焦国际中文教育教材和学习者文本。
【方法】本文旨在报告我们开发的汉语文本可读性工具AlphaReadabilityChinese。该工具包括词汇、句法、语义三个维度共九个语言指标,采用了更成熟、稳健的算法开发,是通用的汉语可读性指标和工具。
【实验】本文以金庸和古龙两位作家的作品为语料测试该工具的有效性。结果显示,两位作家的作品在可读性指标上具有较大差异,金庸作品文本的可读性显著弱于古龙作品。
【结果】测试结果同时表明,该工具所包含的可读性指标可以很好地区分两位作家的作品。论文最后分析了AlphaReadabilityChinese在数字人文、国际中文教育、新闻传播、信息科学、经济/金融等学科领域的应用前景。

1. 引言

1. 文本可读性的定义与重要性

2. 早期经典指标

3. 经典指标的局限性

4. 现代研究的进展

5. 应用领域

6. 现有研究的局限性

7. 本研究的贡献

2. 汉语文本可读性工具开发

2.1 词汇丰富度

为何选择熵值而非字符种类数衡量词汇丰富度?

1 忽略分布均匀性
字符种类数(Unique Character Count)仅统计文本中不同字符的数量,但无法反映字符的实际分布模式。例如,若两个文本具有相同的字符种类数,但其中一个文本中某几个字符高度集中(如"的、了、是"占90%频次),另一个文本的字符分布均匀,两者的词汇丰富度显然不同。
2 对文本长度敏感
字符种类数易受文本长度影响。短文本的字符种类数可能远低于长文本,但这并不意味着其词汇丰富度更低。例如,一篇100字的短文可能使用50种字符,而一篇1000字的文章使用150种字符,但后者可能因高频重复某些词导致实际词汇变化较少。
熵值通过概率归一化(pi=频次总词数)削弱了文本长度的影响,更适合跨文本规模的比较。

2.2 句法丰富度

2.3 语义精确度

2.4 语义丰富度

2.5 语义清晰度

2.6 语义噪音

3. 验证汉语文本可读性工具:文学作品研究案例

3.1 研究目的、数据与方法

3.2 研究结果与讨论

Pasted image 20250325222208.png

Pasted image 20250325222218.png

Pasted image 20250325222310.png

对比词长检验方法刘颖和肖天久(2014):

4. 启示与展望