如何减少AI中的偏见问题:八种方法避免AI偏见渗入模型

08/17/2020

克服与避免 AI 偏见的八大方法

AI 中的算法偏见是一个普遍存在的问题,它虽然不可能完全消除,但却可以通过科学的方法积极地防止这种偏见。我们将在本文中围绕如何应对AI中的偏见问题展开深入的讨论。

您可能会回想起新闻中报道的一些存在偏见的算法示例,例如语音识别无法识别代词“她的”,但能够识别“他的”,或者面部识别软件不太可能识别出有色人种。虽然不可能完全消除 AI 偏见,但我们不仅要知道如何减少 AI 偏见,还必须积极努力地防止这种偏见。若要了解如何减少 AI 中的偏见,我们首先要了解用于生成和开发模型的训练数据。

在我们发布的 2020 年 AI 与机器学习现状报告中,只有 15% 的公司表示 AI 的数据多样性、减少偏见和全球规模“不重要”。尽管这一结果已经非常不错,但仍然有 24% 的公司认为无偏见、多样化的全球性 AI 至关重要。这意味着许多公司仍需要努力克服 AI 偏见,这不仅有助于推动 AI 项目的成功,而且在当今环境下至关重要。

算法的作用是在存在人为偏见时予以干预,因此通常被认为是无偏见的。您要记住的重要一点是,这些模型是由人类编写的,而且通过由社交生成的数据进行了训练。这就带来了向模型中引入并扩大现有人类偏见,进而导致 AI 无法真正为每个人带来价值的挑战和风险。

负责任和成功的公司必须知道如何减少 AI 偏见,并主动从他们的训练数据着手。为了最大程度地减少偏见,应运用统计信息和数据探索来监控异常值。基本上来说,我们可以通过比较和验证不同训练数据样本的代表性来减少和避免 AI 偏见。如果没有这种偏见管理,任何 AI 计划最终都会以失败而告终。

AI-偏见.png

您可以通过以下八种方法来避免 AI 偏见渗入模型。

减少 AI 中的偏见的八个步骤

  1. 定义并缩小您要解决的业务问题:尝试解决过多问题通常意味着您需要使用大量无法管理的类所涵盖的大量标签。首先,在相对狭小的范围内定义问题有助于您确保模型能够在它的具体作用方面表现良好。
  2. 对数据收集进行结构化处理,允许有不同的意见:单个数据点通常会有多个有效的意见或标签。收集这些意见并考虑合法的(通常是主观的)分歧会令您的模型更加灵活。
  3. 了解您的训练数据:学术数据集和商业数据集都会存在可能将偏见引入到算法之中的类和标签。您对数据的了解和拥有程度越高,出现令人反感的标签的可能性就越低。
  4. 组建一支多样化的 ML 团队,让他们提出各种问题:同一工作场所,不同的人会有不同的体验和想法。种族、性别、年龄、经历、文化等背景因素不同的人,肯定会提出不同的问题,而且会以不同的方式与您的模型进行交互。这种提问有助于您在模型投入生产之前发现问题。
  5. 考虑所有最终用户:同样,请记住一点:您的最终用户将不会像您或您的团队那样简单。因此,一定要了解他们。通过学习去预测不喜欢您的人如何与您的技术交互,以及在交互时可能出现的问题来避免 AI 偏见。
  6. 确保标注多样性:人工标注者资源库扩展的越广泛,您的观点就越具多样化。这可以切实帮助您减少初始启动时以及继续训练模型时的偏见。
  7. 进行测试和部署并考虑反馈:在整个生命周期中,模型很少是静态的。一个常见但比较严重的错误就是在部署模型时,最终用户无法向您提供有关模型在现实世界中应用情况的反馈。因此,应开放讨论和论坛,以获取反馈,这将有助于继续确保您的模型能够真正地为每个人带来价值。
  8. 制定具体的计划,以利用此类反馈来改善您的模型:您不仅要持续使用客户反馈来审查模型,还需要聘请独立人员来审核变更、边缘案例、可能遗漏的偏见等等。因此,您要确保获得有关模型的反馈,并提供自己的反馈,以改善模型性能,并进行不断迭代,以提高准确率。

如何和澳鹏一起减少 AI 中的偏见

二十多年以来,澳鹏一直致力于数据标注,利用我们的多样化众包资源帮助您放心地部署 AI 模型。我们不仅为您提供了一个涵盖来自 130 个国家或地区的超过 100 万名众包资源的平台,而且我们的托管服务专家团队可为您的 AI 模型提供最佳的训练数据,进而帮助您避免 AI 偏见。

澳鹏为您的模型搭建及AI部署提供全生命周期的数据支持,包括数据采集、标注、模型测试以及数据集。