@LLM 文化偏见《Having Beer after Prayer? Measuring Cultural Bias in Large Language Models》

摘要

随着大型语言模型 (LMs) 在全球范围内的普及,它们适应不同文化背景的能力变得至关重要。尽管多语言能力有所进步,但模型设计并未包含适当的文化细微差别。本文展示了多语言和阿拉伯语单语言 LMs 对与西方文化相关的实体表现出偏见。

贡献:

实验与发现:


1. 引言

背景:

问题:

研究差距与本文工作:

评估方法与预览:


2. 相关工作

文化对齐研究:

文化常识与规范研究:

本文与现有工作的不同:


3. CAMeL 的构建

描述 CAMeL 的构建过程,如图 2 所示。

3.1 收集文化实体

目标: 获取全面的、具有文化变异性的实体列表 (包括专有名词和普通名词)。
实体类型 (8 种):

数据来源: Wikidata + CommonCrawl

方法:

  1. Wikidata 实体提取:
    • 手动识别相关 Wikidata 类 (e.g., "food", "city")。
    • 提取在这些类下且具有阿拉伯语标签的所有实体。
    • 对地点、作者、体育俱乐部,可按国家(阿拉伯世界 vs 西欧/北美)分类。
    • 对其他类型,由于缺乏人口统计标签,需手动分类为阿拉伯/西方列表 (详见附录 B.1)。
    • 覆盖范围: 地点、体育俱乐部、作者覆盖广泛;其他类型有限 (见图 3)。
  2. CommonCrawl 实体提取 (扩展覆盖不足的类型):
    • 使用基于模式的实体提取 (简单有效,避免在评估数据构建中使用 LM)。
    • 手动设计 5-10 个通用模式 (名词或名动词短语,后常跟特定实体,e.g., "أخت اسمها" - sister named)。
    • 使用同一模式的不同阿拉伯语动词变位 (反映数量和性别)。
    • 提取模式后最多两个词 (高召回、低精度)。
    • 产出: 每种类型 5 k-10 k 独特提取结果。
  3. 人工标注:
    • 雇佣两名母语为阿拉伯语的本科生 ($18/小时)。
    • 将提取物分类为:阿拉伯文化、西方文化、其他外国文化、非文化特定、非实体。
    • 例子 (服装): Jellabiya (阿拉伯传统服饰) = 阿拉伯实体;Khaki, Hoodie (西方流行款式) = 西方实体。
    • 标注者间一致性: Cohen's Kappa = 0.927。分歧通过讨论解决。
    • 效率: 每 1 k 提取物约 60 分钟。
    • 结果: CommonCrawl 提取的实体约 15-20% 与 Wikidata 重叠。CAMeL 覆盖了常见和不常见的实体 (图 4)。
    • 性别分类: 人名和服装实体分为男性/女性,以匹配阿拉伯语的性别语法,无意排除其他性别认同。 (详见附录 B.2)。

实体统计: 见图 3。

3.2 收集自然产生的提示

目标: 评估 LMs 在文化特定语境下区分阿拉伯和西方实体的能力。
提示类型:

方法:

  1. 检索自然语境: 从 Twitter/X 检索推文,以反映真实语言使用场景。
  2. CAMeL-Co 检索:
    • 关键词搜索策略:
      • 使用 20 个随机抽样的阿拉伯实体作为查询词。
      • 使用手动设计的、直接引用阿拉伯实体的形容词短语模式 (e.g., "للكاتب العربي" - by the Arab author)。
    • 时间范围: 2023 年 8 月 1 日 - 9 月 30 日 (避免与 LMs 预训练数据重叠)。
    • 筛选: 手动检查检索到的推文,选择具有合适阿拉伯文化背景的推文。
    • 创建提示: 将原始语境中的实体替换为 [MASK] 标记。
    • 产出: 250 个 CAMeL-Co 提示。
  3. CAMeL-Ag 检索:
    • 关键词搜索策略: 使用不含任何文化参照的通用模式作为查询词。
    • 创建提示: 将实体替换为 [MASK] 标记。
    • 产出: 378 个 CAMeL-Ag 提示 (详见附录 C)。
  4. 情感标注:
    • 由标注者为提示标注正面、负面或中性情感。
    • 标注者间一致性: Cohen's Kappa = 0.954。
    • 目的: 支持 LMs 在情感分析任务上的公平性评估。
    • 更多细节和统计数据见附录 C.3。

4. 测量 LMs 中的文化偏见

使用 CAMeL 测量多个单语和多语 LMs 的文化偏见 (§4.1)。

4.1 语言模型

测试模型: 选择了经过阿拉伯语训练的 LMs。

4.2 故事生成中的文化刻板印象

目标: 检查 GPT 类型 LMs 在描绘阿拉伯和西方实体时是否反映刻板印象。
方法:

4.3 NER 和情感分析中的公平性

目标: 检查 LMs 是否公平对待阿拉伯和西方实体。
方法:

4.4 文化适宜的文本填充

目标: 测试 LMs 适应文化背景的能力。
方法:


5. 分析阿拉伯语预训练数据

目标: 探究阿拉伯语预训练语料库中西方内容的普遍性是否是 LMs 文化适应失败的原因。
方法:


6. 结论

主要贡献与发现:


局限性 (Limitations)


伦理声明 (Ethics Statement)