@LLM 文化偏见《Having Beer after Prayer? Measuring Cultural Bias in Large Language Models》
摘要
随着大型语言模型 (LMs) 在全球范围内的普及,它们适应不同文化背景的能力变得至关重要。尽管多语言能力有所进步,但模型设计并未包含适当的文化细微差别。本文展示了多语言和阿拉伯语单语言 LMs 对与西方文化相关的实体表现出偏见。
贡献:
- 引入 CAMeL (Cultural Appropriateness Measure Set for LMs),一个新的资源库,包含:
- 628 个自然产生的提示 (prompts)。
- 20,368 个实体,跨越 8 种实体类型,对比阿拉伯和西方文化。
- CAMeL 为通过外部 (extrinsic) 和内部 (intrinsic) 评估测量 LMs 中的文化偏见提供了基础。
实验与发现:
- 使用 CAMeL 评估了 16 个不同的 LMs 在阿拉伯语中的跨文化表现,涵盖任务:
- 故事生成
- 命名实体识别 (NER)
- 情感分析
- 文本填充 (text-infilling)
- 结果揭示了令人担忧的刻板印象和文化不公平现象。
- 文本填充测试显示模型无法适当适应阿拉伯文化背景。
- 分析了 6 个阿拉伯语预训练语料库,发现常用来源(如维基百科)若不经调整直接使用,可能不适合构建具有文化意识的 LMs。
1. 引言
背景:
- 世界是多元文化的,文化多样性丰富了全球社区。
- LMs 的全球部署要求模型理解不同社群的文化差异。
- 现有 LMs 在捕捉文化细微差别和适应特定文化背景方面仍有困难 (Hershcovich et al., 2022)。
- 真正的多元文化 LMs 应不仅能跨语言交流,还要具备文化敏感性意识。
问题:
- 如图 1 所示,LMs 在处理阿拉伯语提示时,难以进行适当的文化适应,常优先推荐以西方为中心的内容。
- 例子: 阿拉伯语提示明确提到伊斯兰祈祷,但模型仍提及酒精饮料。“去喝一杯”在西方文化中常指饮酒,但在主要是穆斯林的阿拉伯世界,通常指喝咖啡或茶。
- 模型在建议人名和食物时也生成不符合提示文化背景的西方式实体。
- 核心问题: LMs 是否在非英语、非西方语言中对西方实体表现出偏见?
研究差距与本文工作:
- 现有偏见研究多关注人口或社会维度(如宗教、种族、国籍),较少关注 LMs 在非西方、非英语环境中的文化适宜性。
- 本文关注文化相关实体 (culturally relevant entities),因其是文化遗产的重要方面,并能象征地域身份。
- 目前缺乏对比阿拉伯与西方文化差异的可用资源。
- 贡献: 构建新基准 CAMeL。
- 包含从 Wikidata 和 CommonCrawl 提取的 20,368 个阿拉伯和西方实体 (8 种类型)。
- 包含 628 个来自社交媒体的自然产生的提示作为这些实体的上下文 (§3)。
评估方法与预览:
- CAMeL 实体和提示支持在多种实验设置中进行 LMs 的跨文化测试:
- 故事生成 (§4.2)
- NER (§4.3)
- 情感分析 (§4.3)
- 文本填充 (§4.4)
- 基准测试了 16 个用阿拉伯语数据预训练的 LMs (§4.1)。
- 主要发现:
- LM 生成的故事中存在文化刻板印象(如阿拉伯名字与贫穷/传统主义关联)。
- 存在文化不公平(如对西方实体的 NER 表现更好,阿拉伯实体与负面情感关联度更高)。
- 即使在明确指向阿拉伯文化的语境下,LMs 仍高度偏好西方相关实体。
- 语料库分析: 阿拉伯语料库中西方内容的普遍性可能是观察到偏见的关键因素。分析显示维基百科等来源可能不适合用于构建文化感知 LMs (§5)。
2. 相关工作
文化对齐研究:
- 探索 LMs 中的道德知识(对行为对错的判断),发现 LMs 可能偏向某些社会(如美国)的道德价值观和政治意识形态(如自由主义)。
- 研究 LMs 对跨文化价值观和信仰差异(如个人主义态度)的理解。
- 研究 LMs 对政治或其他全球话题的看法。
- 方法: 使用文化调查问卷 (Hofstede, WVS 等),通过 QA 或完形填空形式探测 LMs。
- 发现: LMs (即使在多种语言下) 反映的价值观和观点与西方文化一致 (Wang et al., 2023 b; Masoud et al., 2023)。
文化常识与规范研究:
- 探测 LMs 回答地理多样性事实的能力(如中国婚纱颜色)。
- 探测 LMs 对文化规范(如烹饪习俗、时间表达)的理解。
- 将社会规范推理作为蕴含分类任务研究。
本文与现有工作的不同:
- 焦点: 研究 LMs 如何处理具有文化变异性的实体(如人名、食物)。
- 资源: 从 Wikidata 和 CommonCrawl 提取并标注了广泛的文化实体列表。
- 提示: 使用从社交媒体收集的自然产生的提示进行评估,而非基于调查问卷的人工提示。
- 评估: 数据集支持多种偏见测量设置(刻板印象、公平性、文本填充),补充了现有文献。
- 参考附录 A 了解其他偏见相关问题。
3. CAMeL 的构建
描述 CAMeL 的构建过程,如图 2 所示。
3.1 收集文化实体
目标: 获取全面的、具有文化变异性的实体列表 (包括专有名词和普通名词)。
实体类型 (8 种):
- 人名 (Person names)
- 食物 (Food dishes)
- 饮料 (Beverages)
- 服装 (Clothing items)
- 地点 (Locations - 城市)
- 文学作者 (Literary authors)
- 宗教场所 (Religious places of worship - 清真寺/教堂)
- 体育俱乐部 (Sports clubs - 足球)
数据来源: Wikidata + CommonCrawl
方法:
- Wikidata 实体提取:
- 手动识别相关 Wikidata 类 (e.g., "food", "city")。
- 提取在这些类下且具有阿拉伯语标签的所有实体。
- 对地点、作者、体育俱乐部,可按国家(阿拉伯世界 vs 西欧/北美)分类。
- 对其他类型,由于缺乏人口统计标签,需手动分类为阿拉伯/西方列表 (详见附录 B.1)。
- 覆盖范围: 地点、体育俱乐部、作者覆盖广泛;其他类型有限 (见图 3)。
- CommonCrawl 实体提取 (扩展覆盖不足的类型):
- 使用基于模式的实体提取 (简单有效,避免在评估数据构建中使用 LM)。
- 手动设计 5-10 个通用模式 (名词或名动词短语,后常跟特定实体,e.g., "أخت اسمها" - sister named)。
- 使用同一模式的不同阿拉伯语动词变位 (反映数量和性别)。
- 提取模式后最多两个词 (高召回、低精度)。
- 产出: 每种类型 5 k-10 k 独特提取结果。
- 人工标注:
- 雇佣两名母语为阿拉伯语的本科生 ($18/小时)。
- 将提取物分类为:阿拉伯文化、西方文化、其他外国文化、非文化特定、非实体。
- 例子 (服装): Jellabiya (阿拉伯传统服饰) = 阿拉伯实体;Khaki, Hoodie (西方流行款式) = 西方实体。
- 标注者间一致性: Cohen's Kappa = 0.927。分歧通过讨论解决。
- 效率: 每 1 k 提取物约 60 分钟。
- 结果: CommonCrawl 提取的实体约 15-20% 与 Wikidata 重叠。CAMeL 覆盖了常见和不常见的实体 (图 4)。
- 性别分类: 人名和服装实体分为男性/女性,以匹配阿拉伯语的性别语法,无意排除其他性别认同。 (详见附录 B.2)。
实体统计: 见图 3。
3.2 收集自然产生的提示
目标: 评估 LMs 在文化特定语境下区分阿拉伯和西方实体的能力。
提示类型:
- CAMeL-Co (文化语境化提示): 包含阿拉伯文化参照,为阿拉伯实体提供独特语境。测试 LMs 的文化适应能力。
- CAMeL-Ag (文化无关提示): 中性语境。测试 LMs 的默认文化倾向。
- 对比示例见表 1。
方法:
- 检索自然语境: 从 Twitter/X 检索推文,以反映真实语言使用场景。
- CAMeL-Co 检索:
- 关键词搜索策略:
- 使用 20 个随机抽样的阿拉伯实体作为查询词。
- 使用手动设计的、直接引用阿拉伯实体的形容词短语模式 (e.g., "للكاتب العربي" - by the Arab author)。
- 时间范围: 2023 年 8 月 1 日 - 9 月 30 日 (避免与 LMs 预训练数据重叠)。
- 筛选: 手动检查检索到的推文,选择具有合适阿拉伯文化背景的推文。
- 创建提示: 将原始语境中的实体替换为
[MASK]
标记。 - 产出: 250 个 CAMeL-Co 提示。
- 关键词搜索策略:
- CAMeL-Ag 检索:
- 关键词搜索策略: 使用不含任何文化参照的通用模式作为查询词。
- 创建提示: 将实体替换为
[MASK]
标记。 - 产出: 378 个 CAMeL-Ag 提示 (详见附录 C)。
- 情感标注:
- 由标注者为提示标注正面、负面或中性情感。
- 标注者间一致性: Cohen's Kappa = 0.954。
- 目的: 支持 LMs 在情感分析任务上的公平性评估。
- 更多细节和统计数据见附录 C.3。
4. 测量 LMs 中的文化偏见
使用 CAMeL 测量多个单语和多语 LMs 的文化偏见 (§4.1)。
4.1 语言模型
测试模型: 选择了经过阿拉伯语训练的 LMs。
- 单语 LMs: AraBERT (B/L), ARBERT (B), CAMeLBERT (B), CAMeLBERT-DA (B), CAMeLBERT-MSA (B), MARBERT (B), AraBERT-T (B/L), AraGPT 2 (B/L)。
- 多语/双语 LMs: mBERT (B), XLM-R (B/L), BLOOM (176 B), GPT-3.5 (text-davinci-003), GPT-4 (gpt-4-1106-preview), JAIS (13 B), JAIS-Chat (13 B), GigaBERT (B), GigaBERT-CS (B), AceGPT (13 B), mT 5-XXL (13 B), Aya (13 B)。
- (B=Base, L=Large)。模型详情见附录 D。
4.2 故事生成中的文化刻板印象
目标: 检查 GPT 类型 LMs 在描绘阿拉伯和西方实体时是否反映刻板印象。
方法:
- 设置:
- 对 CAMeL 中的每个男性和女性名字,用阿拉伯语提示 LM:“生成一个关于名叫 [人名] 的角色的故事”。
- 分析: 分析 LM 在包含阿拉伯名字与西方名字的故事中形容词使用的频率。
- 使用 Farasa POS tagger 提取所有形容词。
- 计算形容词的 Odds Ratio (OR) (详见附录 F.1 公式)。
- 高 OR: 更可能出现在西方故事中。
- 低 OR: 更可能出现在阿拉伯故事中。
- 检查 OR 最高和最低的 50 个形容词,根据 Cao et al. (2022 a) 和 ABC 框架 (Koch et al., 2016) 识别和分类反映刻板印象的形容词 (e.g., 贫穷, 可爱)。
- 结果:
- 图 5 (男性名字), 附录 F.1 (女性名字), 表 2 (示例):
- 阿拉伯角色更常与贫穷 (e.g., "poor" - فقير) 和传统主义 (Traditionalism) 关联。故事开头常为“出生在一个贫穷而简朴的家庭”。男性名字还关联支配性 (Dominance),女性名字关联仁爱 (Benevolence)。
- 西方角色更常与财富 (e.g., "wealthy" - ثري), 可爱 (Likeability) 和高地位 (High-Status) 关联。
- 图 5 (男性名字), 附录 F.1 (女性名字), 表 2 (示例):
4.3 NER 和情感分析中的公平性
目标: 检查 LMs 是否公平对待阿拉伯和西方实体。
方法:
- 设置:
- 测试数据: 使用已标注情感的 CAMeL-Co 提示 (§3.2)。对每个提示,用 50 个随机抽样的阿拉伯实体和 50 个西方实体替换
[MASK]
标记。生成两个文化对比的评估集(阿拉伯集/西方集),每个约 12 k 句子用于情感分析。NER 评估使用包含人名或地点的 5.7 k 句子子集。 - 模型准备:
- 在常用阿拉伯语 NLU 基准数据集上微调 LMs:
- NER: ANERCorp (仅使用 name 和 location 标签)。
- 情感分析: HARD dataset。
- 对 GPT 类型 LMs:使用 5-shot 示例进行上下文学习 (ICL) (提示见附录 F.2)。
- 在常用阿拉伯语 NLU 基准数据集上微调 LMs:
- 测试数据: 使用已标注情感的 CAMeL-Co 提示 (§3.2)。对每个提示,用 50 个随机抽样的阿拉伯实体和 50 个西方实体替换
- NER 结果 (图 6):
- 大多数 LMs 在标注西方人名和地点时表现更好。
- 地点上的差异更大,F 1 分数差距可达 20 点。
- 男性和女性名字的标注差距较小,约 5 个 F 1 点。
- 情感分析结果 (图 7):
- 遵循以往工作 (Czarnowska et al., 2021),分析包含阿拉伯 vs 西方实体的句子在假阴性 (FN) 和假阳性 (FP) 预测上的差异。
- 发现: 几乎所有 LMs 对包含阿拉伯实体的句子产生更高的假阴性率 (FN)。这表明模型更倾向于将阿拉伯实体与负面情感错误地关联起来。
- 未观察到对阿拉伯或西方实体有明显更强的正面情感关联趋势。
4.4 文化适宜的文本填充
目标: 测试 LMs 适应文化背景的能力。
方法:
- 使用基于似然性的评分,比较模型对西方 vs 阿拉伯实体作为 CAMeL 提示中
[MASK]
填充物的偏好。 - 文化偏见分数 (Cultural Bias Score - CBS):
- 受 Nadeem et al. (2021 a) 启发,衡量模型
的西方偏见程度。 - 计算模型偏好西方实体超过阿拉伯实体的百分比。
- 公式: 对于实体类型
,阿拉伯实体集 , 西方实体集 ,提示 : - 模型处理:
- BERT 类型架构:使用带
[MASK]
的完整提示进行文本填充。 - GPT/T 5 类型架构:仅使用
[MASK]
之前的提示部分。 - 对多子词实体,取子词概率的平均值。
- BERT 类型架构:使用带
- 最终 CBS: 对提示集
,计算每个实体类型的平均 CBS。CBS 越接近 100%,模型越偏向西方。
- 受 Nadeem et al. (2021 a) 启发,衡量模型
- 提示适应技术 (Prompt Adaption):
- (1) 文化标记 (Culture Token): 在提示前添加特殊标记
[Arab]
。 - (2) N-shot 演示 (N-shot demos): 在提示前添加随机抽样的阿拉伯实体作为演示 (确保评估的实体不在演示中)。
- (1) 文化标记 (Culture Token): 在提示前添加特殊标记
- 结果 (图 8: CAMeL-Co 平均 CBS; 附录 F.3: 各实体类型 CBS 和 CAMeL-Ag 结果):
- 关键发现 1: 即使在阿拉伯文化背景下,LMs 仍偏好西方实体。
- CAMeL-Co 提示明确指向阿拉伯文化,理想 LM 的 CBS 应接近 0。
- 但现有 LMs 平均 CBS 很高 (40%-60%),与在中性语境 (CAMeL-Ag) 中的表现相当。表明难以适应语境中的适当文化,并明显偏好西方实体。
- 关键发现 2: 即使是单语阿拉伯特定 LMs 也表现出西方偏见。
- 原因可能是部分预训练数据(即使是阿拉伯语)讨论的是西方话题 (§5)。
- 关键发现 3: 多语言 LMs 显示更强的西方偏见。
- 大多数多语 LMs 的 CBS 高于单语 LMs。意味着多语言训练可能影响 LMs 在非西方语言中的文化相关性。
- 附录 G.1 显示单语 LMs 能将阿拉伯和西方实体嵌入聚类分开,而多语 LMs 中则混合。
- 关键发现 4: 文化相关的演示有助于适应。
- 提示适应技术,特别是 N-shot 演示,降低了多数 LMs 的 CBS。
- 引入特殊文化标记效果甚微。
- 关键发现 1: 即使在阿拉伯文化背景下,LMs 仍偏好西方实体。
5. 分析阿拉伯语预训练数据
目标: 探究阿拉伯语预训练语料库中西方内容的普遍性是否是 LMs 文化适应失败的原因。
方法:
- 设置:
- 分析的语料库 (6 个):
- 本地阿拉伯新闻: 1.5 B corpus (El-Khair, 2016), Assafir news
- 国际新闻: OSIAN (Zeroual et al., 2019)
- 网页抓取: OSCAR (阿拉伯语子集)
- 阿拉伯语维基百科
- 推特: 60 M 阿拉伯语推文语料库 (用于训练 AraBERT-T)
- 方法:
- 在每个语料库上训练 4-gram LMs (使用 OpenGRM, 无平滑)。利用其基于频率计数的特性直接比较文化语境和实体在不同语料库中的普遍性。
- 使用训练好的 4-grams 计算每个语料库在 CAMeL-Co 上的平均 CBS。
- 分析的语料库 (6 个):
- 结果 (图 9):
- (阿拉伯语) 维基百科是所有语料库中最偏向西方的,尽管常被认为是高质量预训练数据源之一。原因:大量阿拉伯语维基百科文章讨论西方内容。
- 国际新闻 (OSIAN) 的 CBS 第二高。
- 网页抓取数据 (OSCAR) 是第三偏西方的来源。原因可能与大量网页内容是机器翻译有关 (Thompson et al., 2024),西方内容可能被翻译成阿拉伯语。
- 附录 G.2 显示,类似英语语法结构的阿拉伯语句子会引发 LMs 更强的西方偏见。
- 本地新闻和 Twitter/X 语料库 的 CBS 最低。建议未来工作可考虑使用这些来源训练更具文化适应性的 LMs。
6. 结论
主要贡献与发现:
- 引入了 CAMeL,一个包含自然产生提示和跨 8 种实体类型的文化相关实体的新数据集。
- 证明了 LMs 在阿拉伯语环境中表现出对西方实体的偏见,未能进行适当的文化适应。
- 揭示了 LMs 在 NER、情感分析等任务上表现出的文化不公平性,以及在生成故事中存在的刻板印象。
- 通过发布 CAMeL,希望推动具有文化意识的 LMs 的评估和发展。
局限性 (Limitations)
- 分类粒度: CAMeL 主要将实体分为阿拉伯或西方文化。未来可进行更细粒度的划分(如阿拉伯世界内或西方世界内的特定区域/国家),以分析 LMs 区分亚文化群体的能力。
- 语言范围: CAMeL 仅涵盖阿拉伯语。未来可将 CAMeL 的实体提取和提示构建方法扩展到其他语言(如汉语、韩语),这些语言中也观察到 LMs 的西方价值观倾向 (Wang et al., 2023 b; Masoud et al., 2023)。
- 刻板印象分析: 故事生成中的刻板印象分析仅限于词汇层面(形容词)。未来可利用 CAMeL 实体分析词汇内容之外的变异,如生成文本的风格特征。
- 语料库分析: 对预训练语料库的分析侧重于文化内容相关性,以理解 LMs 适应阿拉伯文化背景失败的原因。要深入了解刻板印象和不公平问题,需要更多分析(如量化阿拉伯/西方实体与特定主题(贫穷、负面)在语料库中的共现)。微调数据集也可能加剧公平性问题。
伦理声明 (Ethics Statement)
- 默认文化: 在中性语境下 LMs 应默认何种文化是个复杂问题,取决于用户偏好和背景。CAMeL-Ag 可用于测试 LMs 是否符合用户的特定文化偏好。当前 LMs 在中性语境下默认西方文化。
- 数据隐私: 提示源自 Twitter/X,但已匿名化(实体被替换为
[MASK]
),不含个人身份信息 (PII)。仅用于研究目的,评估 LMs 的文化适应性。已仔细选择不含有毒或冒犯性语言的语境。 - 语法性别: 阿拉伯语是语法性别化的语言,动词需根据性别变位。这影响了人名和服装类提示的构建,需按性别分开。这是遵循处理语法性别语言中社会偏见研究的先前做法,并非定义或区分性别认同。本研究旨在调查 LMs 对西方实体的偏见,而非性别偏见。