@宋耀等:《基于中国古典诗词韵部的汉字数字化处理与形音义相关性研究》
摘要
本文从汉字的形音义联系入手,利用数字化技术处理汉字结构及声律问题。以中国古典诗词韵部为研究基础,选取平水韵中的平声字(4719 字) 和仄声字(6857 字) 作为古音分类依据。通过像素重叠技术,将平仄字叠加至九宫格中,统计分析其字形差异,并通过形态分割提取构件,结合《说文解字》进行语义分析。研究发现:
- 平声字与仄声字在形态结构上存在部分显著差异。
- 平声字更多使用与动物义相关的构件。
本文首次在数字化视域下探索汉字形音义相关性的宏观特征,为汉字数字化研究提供新思路。
1. 引言
汉字是形声义三位一体的文字,本文从技术层面探索其形音义相关性,聚焦汉字结构与声律问题。以中国古典诗词的声律特征为切入点,研究平水韵中的平仄调类。
2. 相关工作
2.1 文字结构与声律数字化研究
数字技术在语言学中的应用:
- 文本分析:Mehta 等人通过程序分析文本数据,揭示单词结构与语言演变规律。
- 语音分析:Cristea 等人分析音素使用方式;Machard 等人创建语音图展示音素关系。
2.2 数字化视域下的汉字文化研究
数字技术在汉字研究中的应用:
- 语义研究:Yeh 等人通过 Stroop 效应发现部首对汉字语义的干扰。
- 语音转换:张大军研究文本到声音的自动转换。
- 语料库建设:章寅元建立汉字语料库。
- 语音识别:倪崇嘉等人研究大词汇量连续语音识别技术。
- 古籍数字化:Yalin 等人提出古文本图像去噪方法;魏晓艳推进“中华字库”建设。
未来,图像分割(杨宇、王晔等)和场景文字识别(徐富勇等)技术可进一步助力汉字数字化研究。
3. 计算机视觉处理汉字结构——像素重叠技术
3.1 数据获取与预处理
- 数据来源:搜韵网站,数据量约 107 万,选取平水韵字库:
- 平声字:4719 字。
- 仄声字:6857 字。
- 预处理:
- 分类保存,统一简繁格式。
- 转换为png 格式图片,记录字体轨迹。
3.2 像素重叠技术
- 方法:将同一调类文字图片叠加,生成叠加图。
- 处理:
- 裁切为100×100 点阵。
- 使用 PIL 库加载图片,获取灰度值,生成灰度矩阵。
4. 平仄声字形差异与《说文解字》字义阐释
4.1 平仄声字形差异与统计分析
- 方法:
- 使用像素重叠技术,设置低不透明度叠加汉字。
- 将叠加图置于九宫格,分析笔画浓度。
- 统计:
- 采用Student T 检验比较平仄字在九宫格中的差异。
- 公式:
( 为均值, 为标准差, 为样本量)
- 结果:
- 第 1、3、4、6 宫格的笔画浓度差异显著(P<0.05),平声字浓度高于仄声字。
4.2 汉字形态结构分割与基于《说文解字》的语义分析
- 方法:
- 对第 1、3、4、6 宫格中高贡献字进行形态分割,提取偏旁。
- 使用Unihan 数据库分析偏旁频数与意义。(疑惑是怎么拆分偏旁的,数据库里有吗?)
- 发现:
- 平声字:更多使用与动物义相关的偏旁
- 第 1 宫格:鱼、马、月、隹。
- 第 4 宫格:鱼、虫、風。
- 平声字:更多使用与动物义相关的偏旁
- 分析:
- 第 1、4 宫格偏旁多为形旁,表意,与动物义相关。
- 第 3、6 宫格偏旁多为声旁,影响读音,未见语义规律。
5. 结论
未来方向
- 使用更贴近中古音的字体(如楷体)替代宋体。
- 细化“平上去入”四调分析。
- 从音律角度验证平声字与动物义的相关性,或追溯上古汉语与自然拟音的关系。