@陈欣等:《基于大语言模型的试题自动生成路径研究》

对比一下 @来雨轩等:《基于大语言模型与检索增强的学科试题生成方法》

摘要

为提高大模型自动生成试题的质量,本研究构建一种基于大语言模型的试题自动生成路径,并对其进行验证研究。首先是基于检索增强进行知识集成,其次是将课程知识以知识点的形式融入提示模板,最后是结合提示工程的效用,使大模型在理解课程知识的基础上执行大量试题生成任务。验证结果发现,自动生成试题的合格率为86.47%,随机抽取试题组成的测验难度为0.67,试题接受度良好。

一、研究背景

1. 国际研究进展

2. 大模型应用挑战

3. 提示工程突破

二、方法框架(GQR路径)

Pasted image 20250308140424.png

1. 知识增强

RAG检索式生成

2. 结构化知识点

首先,在专家和教师经验的指导下,将一门课中需要学生掌握的内容按知识点的形式进行组织,形成知识点条目的结构化数据。其次,通过调用大模型应用接口(application programming interface,API),既可以遍历(traversal)存储文件让知识点条目逐一自动填补进提示模板中,也可以在交互界面填入提示模板,指令大模型进行试题的批量化生成。

3. 提示模板设计

最终指令模板

你是一位教授[科目]这门课的老师,现在想要考查学生对所学的[top-k 文档在代码中的参数]中知识的掌握程度,根据该目的,你要执行下列任务:
1)分析关于[知识点]的内容;
2)编制一道[题型];
3)给出正确答案和解释。

提示技术对比

Pasted image 20250308140816.png

三、验证研究

评估体系

  1. 五维合格标准

    • 准确性
    • 模板黏性
    • 完善性
    • 试题质量
    • 道德性
  2. 难度公式

    P=XW

    (X:平均分,W:总分)

实验结果

Pasted image 20250308141227.png

抽取10名上学期选修《信息检索》与《数据结构》课的全日制在读硕士生作为被试,并告知他们这是一次考查信息素养的测试,要求他们独立完成并尽可能准确作答。测验结束后进行难度值计算,结果P值为0.67

四、局限与展望

当前局限

  1. 单题难度控制机制缺失
  2. 复杂题型(五选项)生成 试题质量受损
  3. API 暂时无法给出有正确代码缩进的代码(Cm:: 疑惑,用 md 格式不行吗?平时也 api 写代码也写得好好的)
  4. API 在生成图画方面的能力还比较欠缺(Cm:: 疑惑,不能用 mermaid 画图吗?)

未来方向

  1. 领域专用模型微调
  2. 探索更多灵活的任务提示模板
  3. 多轮对话质量优化