@庞仙等:《融合多源提示信息的新词语释义自动生成》

主要是关于提示词的撰写——黑话“融合多源提示信息”。可多借鉴对比实验的设计,怎么把(似乎)一件小事说长,说科学,量化评估。

摘要

引言

相关研究

方法

新词语数据集

提示学习框架

实验结果

主要结果

对比实验

上下文语境影响

类型信息作用

思维链负向影响

Bug🐞

  1. 实验设计问题

    • 论文中将“模型自生成类型/例句”与“人工提供准确类型/例句”直接对比,本质上是任务设定不匹配。前者要求模型同时完成“信息推断+释义生成”,后者仅需“释义生成”。
    • 正确的对比应分为两步:
      • 步骤1:评估模型自主推断类型/例句的准确性。
      • 步骤2:在已知准确信息下,对比思维链与直接生成的效果。
  2. 可能的改进方向

    • 分离任务阶段:先验证模型能否正确推断类型/生成合理例句,再基于正确信息生成释义。
    • 控制变量对比:在相同信息输入下(如人工提供类型+模型生成例句),评估思维链是否提升生成质量。

补充观点
论文中思维链的负向影响可能源于误差传播:模型若在前期步骤(如类型判断)出错,会导致后续释义生成偏离正确方向。

上下文学习(in-context learning)对释义生成的影响
Pasted image 20250209121312.png
相似示例举例:反向抹零→反向背调

分析实验

  1. 提示信息的长度:提示词都在模型有效长度限制以内,所以不存在长度限制问题
  2. 新词语类型对释义生成的影响:不同类型的新词语的释义生成效果有明显差异,整体上,新造词和简略词的释义准确性最高,而外来词的释义准确性较低。
  3. 大语言模型对释义生成的影响:文心一言效果更准确,Chatgpt 对提示信息更敏感。
  4. 大语言模型生成释义的随机性实验:每个类型选一个词,用 zp 3 作为提示词,生成五个结果进行人工评估。结论是总体来说语义具有一致性。