贯穿AI生命周期各阶段的道德问题:数据准备
随着AI在市场上得到更广泛的采用并被作为各种用例中的工具实现,更多的挑战也应势而生。AI项目遇到了一个长期的关键问题,即合乎道德的AI以及数据中的偏见处理。在AI发展初期,这个问题并不明显。 数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练AI或机器学习模型,就会导致有偏差、不公正、不准确的结果。澳鹏正在深入研究AI生命周期各个阶段合乎道德的AI数据是什么样的。 在数据旅程的每一步,都有可能出现导致数据偏见的常见错误。值得庆幸的是,有一些方法可以避免这些隐患。在本系列文章中,我们将探索AI生命周期以下四个阶段中的数据偏见:
- 数据获取
- 数据准备
- 模型训练和部署
- 人工模型评估
并非所有的数据集都是平等的,但我们希望帮助您驾驭AI生命周期中复杂的数据道德问题,这样您就可以为AI模型创建最好、最有用且最可靠的数据集。
数据准备中的偏见
在使用数据训练AI模型之前,必须保证这些数据可读并可用。AI数据生命周期的第二阶段是数据准备,即获取一组原始数据,对其进行排序、标注、清理和复核。澳鹏为客户提供人工标注、AI自动数据标注等数据准备服务。这两者结合应用,则能以尽可能低的偏见交付高质量的数据。 在数据准备阶段,首先由标注员检查每条数据,并为其提供标签或标注。根据不同的数据类型,可能有以下标注方式:
- 在图像中的对象周围加边界框
- 转录音频文件
- 将书面文本从一种语言翻译成另一种语言
- 标注文本文件或图像文件
我们世界各地的人工标注员完成数据标注后,数据便进入数据准备的下一环节:质量保证。质量保证过程需要人工标注员和机器学习模型来检查数据的准确性。如果数据不适合项目或数据标注错误,则会从数据集中删除相应数据。 在数据准备阶段的最后,数据集接着进入模型训练阶段。在数据集进入这个阶段之前,必须保证它一致、完整并且干净。高质量的数据造就高质量的AI模型。 偏见可以通过多种方式引入数据准备过程,并产生道德问题,这些问题随后又被带进AI模型。数据准备中最常见的数据偏见类型包括:
- 数据缺口
- 数据标注员训练不当
- 标注不一致
- 个人偏见
- 数据过多或过少
数据中有缺口
AI数据集中潜入偏见的一种最常见情况是,数据缺口和数据代表性不足。如果数据集中缺少某些分组或类型的数据,就会导致在数据和生成的AI模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足。数据缺口也可能是某类数据或罕见用例示例的代表性不足。 数据缺口通常是无意造成的,因此在准备阶段检查数据,查出这些数据缺口非常必要。如果不能通过添加更多代表性数据来解决数据缺口问题,用于训练AI模型的数据就会存在数据缺口,模型随之就会生成不太准确的结果。
数据标注员没有经过良好的训练
数据准备阶段引入偏见的另一种常见情况是,使用未经训练的数据标注员标注数据。如果数据标注员训练不足,不了解其工作的重要性,则标注过程中更有可能出现标注错误或是偷工减料的情况。 为数据标注员提供全面的训练和支持性监督,能够限制数据准备过程中出现的错误数。在数据标注过程中,未经训练的数据标注员可能通过几种方式引入偏见,其中包括标注不一致和个人偏见。
标注不一致
如果由多个标注员标注一个数据集,务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时,就会产生回忆偏见,导致AI模型的准确性降低。
个人偏见
在标注过程中,数据标注员引入偏见的另一种情况是,夹杂他们自己的个人偏见。我们每个人对周围的世界都有一套独特的偏见和理解。虽然标注员对世界的独特理解能够帮助其标注数据,但却可能会在数据中引入偏见。 例如,如果标注员标注带有面部表情的、流露情绪的图像,则来自两个不同国家的标注员可能会提供不同的标注。这类偏见是数据准备中所固有的,但可以通过全面质量保证流程加以控制。此外,企业还可为数据标注员提供避免无意识偏见的训练,设法减少偏见对数据标注的影响。
只使用人工标注或只使用机器标注
过去,标注数据的唯一方法是,由人工检查每一条数据,并用标签标注。近来,机器学习程序已经能够标注数据并创建训练数据集。 围绕两种标注方法的争论总是很激烈:哪个方法更好呢?我们想要双管齐下,既使用人工标注员标注数据,同时也使用机器学习程序对数据标注进行质量保证检查。这样做才能构建一流质量的数据集。
数据过多或过少
在准备阶段评估数据时,还需要考虑的重要一点是,要确保拥有适量的数据。训练数据可能太少,也可能太多。 如果训练数据太少,算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多,模型的输出会不准确,因为它不能确定哪些是噪声,哪些是真实数据。为模型提供的数据过多称为过拟合。 为AI模型创建大小合适的数据集,将能提高模型输出的质量。
排除“无关紧要的”数据
在数据准备过程中,认真检查数据并从数据集中删除不适用于未来模型的数据很重要。在删除数据之前一定要反复检查,因为最初或对某人来说看似“无关紧要的”数据实际上可能并非如此。在这个阶段删除“无足轻重”的数据会导致排除方面的偏见。数据集的某个部分很小或是不常见,并不意味着它不重要。
数据准备中偏见问题的解决方案
虽然在数据准备过程中有多种方式可能会在数据集中引入偏见,但解决方案也有很多。下面介绍了一些可以在数据准备过程中避免偏见的方法。
雇佣多元化和有代表性的员工
在数据准备过程中消除偏见的一种最重要的方法是,确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少AI训练数据集中的偏见大有帮助。 雇佣多元化的员工才是第一步,我们还可以再进一步,为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见,并有意识地在所标注的数据中寻找偏见。
在质量保证流程中增加偏见检查环节
如果只能做一件事来减少数据准备中的偏见,那应该是在质量保证流程中增加偏见检查环节。大多数偏见都是无意的。这意味着因为没有人察觉,或是没有人想去查找,导致偏见潜入到数据中。 通过在质量保证流程中增加偏见检查环节,可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见,批判性地思考数据中应该和不应该代表什么。为员工提供无意识偏见训练,将使他们更容易在数据准备过程中查找和消除偏见。
为标注员提供优厚的报酬和公平的待遇
偏见在AI数据中普遍存在。识别数据缺口需要敏锐的眼光和全面的训练。为解决AI训练数据集中的偏见问题,企业的一个简单做法是,确保其数据标注员获得优厚的报酬和公平的待遇。 工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工,员工就更有可能以高质量的工作作为回报。本质而言,合乎道德的AI始于那些为训练AI模型而标注数据和清理数据的人。这些人的工作报酬不令人满意,偏见扩散的可能性就更大。 要为AI模型建立一个更合乎道德的美好世界,就应该回归起点:从数据开始。AI生命周期包括四个数据处理阶段,它们都有可能给训练数据集引入偏见。在数据准备阶段,至关重要的是要有训练有素、享有优厚报酬的员工,他们可以识别无意识的偏见,就能帮助尽可能多地消除偏见。
澳鹏在训练数据领域已有28+年经验,服务全球超过15000个人工智能项目,为您的AI部署提供高质量训练数据。