@汪梦翔:《基于多信息资源的汉语复合词自动生成研究》

总结💡

试图通过模型找到近义词,也组配一些新词。在方法上的创新是融合了多种信息构成了一套完整的工作流程,但似乎有些细节没有很详细。读完尚有一些疑问,比如说平行周遍法则判断的算法是如何实现的/语素组配规则的具体判断方式等等。另外对于新词自动生成的研究意义不是很理解。

1. 研究背景与目标

2. 方法

3. 核心问题

4. 相关研究

5. 数据来源

Pasted image 20250218200744.png|378

6. 自动生成流程

  1. 语义解构:依托经过优化的《常用构词字典》构建语素义知识库。
  2. 语素替换,方法详见下MIFSSM 模型:
    • 确定关联语素的取值范围→平行周遍:
      • 陈保亚(2006)提出的三个条件(平行特征、组合关系平行、分布平行)。
        • 平行特征:替换的语素在语义、语法、或用法上具有一定的相似性。(替换的部分都是名词/动词……)
        • 组合关系平行:在被替换部分保持平行特征的前提下,替换后的组合关系也应保持平行,即替换后的语素应能够与原组合中的其他语素形成合理的语义和语法关系(替换前后都构成动宾关系……)
        • 分布平行:替换后的复合词需能够在相同的语境和语法结构中自然出现。
        • Pasted image 20250218201703.png
    • 解决语素的筛选问题,确定该字用哪一个义项:
      • 对每个具有不同义项的字进行编码的形式来确定具体的义项字(如“打1_25_18”,词典中打字的第一个条目,共有 25 个义项,取第 18 个义项)。
    • 语素义的相似度计算:
      • 构建高质量近义语素集,并根据语义近似度进行排序。
  3. 搭配规则生成。
    Pasted image 20250218201041.png

7. MIFSSM模型

8. 语素组配规则库

组配规则类型 语义来源 例词 构词结构
00 和内部语素无关 沙发 单纯词
01 和后语素较多关联 老师 前附加
10 和前语素较多关联 纸张 名量、联合
11 前后语素义均较多关联 选材 述宾、定中

9. 实验验证

10. 结论

D 老师的全流程解析(有一些发挥)😁

Step 1:输入处理与语义解构

输入:用户输入目标词(如“高峰”)。
核心任务:将复合词拆解为语素项,并分析语义关系。
具体操作

  1. 语素拆分:将“高峰”拆解为“高”+“峰”。
  2. 语义解析
    • 通过《常用构词字典》查询语素义:
      • “高”:① 垂直距离大(形容词);② 等级在上(形容词)。
      • “峰”:① 山的尖顶(名词)。
    • 结合HowNet知识图谱确认语义关系:“高”修饰“峰”→ 定中结构(形容词+名词)。
  3. 标记可替换位置:根据平行周遍规则,确定“峰”为可替换语素(名词性,地形类)。

Step 2:近义语素查找(MIFSSM模型工作流程)

目标:为“峰”生成近义语素候选集(如“岭”“顶”“峦”)。
模型运作流程
4. 多源数据融合

  1. 语义向量生成
    • 将“峰”的释义文本(如“山的尖顶”)输入MIFSSM模型,生成300维语义向量。
    • 同时融合HowNet中的义原关系(如“地形→高位”)。
  2. 相似度计算
    • 遍历所有名词性语素(如“岭”“顶”“沙”“石”)。
    • 计算与“峰”的余弦相似度(公式:sim=AB||A||||B||)。
    • 筛选相似度>0.62的语素:
      • “岭”(0.78)、“顶”(0.75)、“峦”(0.68)→ 保留。
      • “沙”(0.32)、“石”(0.41)→ 剔除。

输出候选集:{岭, 顶, 峦}。

Step 3:组配规则约束(动态过滤非法组合)

目标:确保替换后的语素组合符合汉语构词规律。
规则库匹配示例
7. 结构约束:原词“高峰”为定中结构(形容词+名词),新词需保持相同结构。

  1. 语义约束:替换后的语素需共享“高位地形”语义场。
    • 合法组合:高+顶→“高顶”(山顶的高处)。
    • 非法示例:高+沙→“高沙”(语义冲突,沙无高位特征)。
  2. 语境验证:通过预训练语言模型(如BERT)判断生成词是否合理。 (这一步是发挥)
    • 输入:“这座高顶海拔超过5000米” → 置信度>90%。
    • 输入:“高沙堆积在山上” → 置信度<30%,被过滤。

Step 4:新词生成与评估

生成结果

  1. 人工评估(通过ChatGPT模拟):
  1. 语料验证

完整流程图

输入“高峰”
  → 语素拆分:“高” + “峰”
  → 语义解析(定中结构,地形类名词)
  → MIFSSM模型查找近义语素{岭, 顶, 峦}
  → 组配规则过滤(定中结构 + 语义场匹配)
  → 生成结果:高岭(已有词)、高顶(已有词)、高峦(新词)
  → 评估:人工打分 + 语料验证