测量语言模型中的社会偏见
贡献者
对应于:
( )
Wu Chiyu( )
概括
TLDR:我们设计了一个基准套件,以测试预训练语言模型中是否存在代表性的社会偏见。 我们的指标捕获了单词和句子级别的偏见,并返回了在公平性和性能之间取得平衡的整体评分。
动机
随着机器学习方法被部署在诸如医疗保健,法律系统和社会科学等现实世界中,至关重要的是要认识到它们如何在这些敏感的决策过程中形成社会偏见和成见。 在这样的现实世界中,部署大规模的预训练语言模型(LM)可能会表现出不良的代表性偏见,而这种偏见可能是危险的-刻板印象产生的有害偏见会传播涉及性别,种族,宗教和其他社会建构的负面概括。 为了提高LM的公平性,我们在提出新的基准和度量标准之前,仔细定义了代表偏见的几种来源。 该存储库包含一组工具,用于对LM中的社会偏见进行基准测试。
相关工作
最近的工作集中于定义和评估社会偏见[1,2]以及其
1