如何制定数据采集解决方案?

04/13/2023

数据采集仍是人工智能(AI)构建团队的主要瓶颈。原因各不相同:用例数据可能不足,深度学习等新机器学习(ML)技术需要更多数据,或者团队并未建立获取所需数据的适当流程。但无论如何,对准确且可扩展数据解决方案的需求在不断增加。

高质量数据采集最佳方法

作为一名AI从业人员,您需要在制定数据采集计划时提出一些正确的问题。

我需要怎样的数据?

您选择解决的问题表明您所需的数据类型。例如,对于语音识别模型,您需要收集能够代表全部期望客户的语音数据。也就是说,语音数据涵盖目标客户的所有语言、口音、年龄和特征。

我可以从哪里获取数据?

首先,了解内部已有哪些可用数据,以及这些数据能否用于解决现有问题。如需更多数据,可以利用一些公开的在线数据集。您也可以与数据伙伴合作,通过众包资源生成数据。还可以创建合成数据填补数据集中的空白。 但请谨记一点,在模型投产后的很长一段时间内,您需要稳定的数据来源,以确保在模型投产后,可以持续为模型优化提供数据。

我需要多少数据?

数据量取决于您想要解决的问题和预算,但通常而言,数据越多越好。刚开始构建机器学习模型时,通常不会有太多数据。您需要确保拥有足够的数据,可以覆盖模型的所有潜在用例(包括边缘用例)。

如何确保我的数据是高质量的?

在使用数据集训练模型前,请先清理数据集。也就是说,第一步是删除不相关或不完整的数据(并检查确认您是否真的不需要这类数据)。接着,就是要准确标注数据。很多公司转向众包来获得大量的标注员;数据标注员越多元化,数据标注的包容性就越高。如果您的数据标注需要特定领域的知识,需要找到该领域的专家来标注您的数据。 明确上述问题的答案后,您可以开始构建数据管道,使您能够高效地收集高质量、准确标注的数据。最后,要确保数据管道的可重复性、一致性,以帮助您进行扩展。


负责任AI的用武之地

您要坚持从负责任AI的视角来采集数据,这是因为构建合乎伦理道德的AI要从数据开始。干净的数据来源应是重中之重,这意味着您需要以合乎道德的方式获取数据。处理安全且机密信息(例如医疗记录或财务状况)时,尤是如此。请遵守您所在地区和行业的数据保护法规,并在选择数据合作伙伴时,确认这些合作伙伴是否也遵守这些法规。您的数据合作伙伴应该和您一起制定安全协议,以确保客户数据得到尊重和负责任的对待。


解决方案与高级研究组副总裁David Brudenell的专业洞察

包容优于偏见

在过去的18个月里,澳鹏发现,客户与澳鹏的互动方式发生了巨大转变。随着AI的不断发展及日益普遍,它在构建方式上的差距也已明显显现。训练数据在减少AI中的偏见方面发挥着重要作用,我们建议客户组织一批具有代表性、有包容性的标注员来采集数据,构建更快、更好、更具经济效益的AI模型。由于几乎所有的训练数据均由人员采集,所以我们建议客户在样品设计时首先注重包容性。这会增加工作量和实验设计次数,但和简单的样品设计相比,投资回报率会显著提高。简言之,您会得到更多样化、更准确的机器学习/人工智能模型,这些模型拥有更具体的人口统计数据,而且从长远来看,这比试图通过消除生产机器学习/人工智能模型中的偏见来“填补空白”要好得多。

优先考虑用户

精心设计的数据采集方案由多个部分组成。虽然一个包容性的样本框架是基础,但是推动生产量和数据质量的关键是,将以用户为中心的方法引入到整个参与过程中:项目邀请、资格鉴定、新用户引导(包括信任和安全)实验体验。很多时候,团队会忘记完成这些项目的人。如果您忘记这一点,则会因为低于平均水平的书面实验和用户体验而导致项目的吸收率和数据不佳。 设计实验和用户流时,问问如果是自己是否愿意进行这项工作。此外,还要确保您始终亲自对实验进行端到端测试。如果您陷入困境或结果不尽如人意,则需做出改进。

互锁配额——从六千到六万

如果您以美国人口普查为例,围绕6个数据点进行实验:年龄、性别、州、种族和手机拥有量,您有超过6万个配额要管理吗? 这是因为受到互锁配额的影响。互锁配额即实验中所需的访谈/参与者数量在要求多个特征的单元格中。以上述美国人口普查为例,有一个单元需要n个用户,具有以下特征:男性,55岁以上,怀俄明州,非裔美国人,拥有2021年一代的Android智能手机。这是个极端的、低发生率的示例,但通过在定价、编写实验或进入现场前,创建自己的互锁矩阵,您可以发现难以组合的特征或无意义的特征组合,这些组合可能会影响项目的成功。

报酬比以往任何时候都重要

最后,也是最重要的就是审查您为用户完成实验而付的报酬。在设计数据采集实验时,衡量商业利益是很常见的事情,但您不能因此削减对用户的激励。用户是团队中最重要的部分,可以为您提供合适的、高质量的数据。如果您选择向用户支付更少报酬,则会导致项目的吸收率较低且数据不佳,从长远来看,您不得不支付更多。 如果预算有限,请寻求有关全球购买力平价(PPP)方面的建议;您的资金能否在世界各地区获得更高的效益?减少您的配额要求——您能把24-40岁的人分成一组而不是两组吗?这些只是您可以采用一些方法,以便为您的项目获得最大的商业价值。

我们能为您做什么

澳鹏平台提供数据采集服务,以大规模提升机器学习质量。作为该领域的全球领导者,我们的客户将从我们的能力中受益,我们能够快速地在多种数据类型中提供大量高质量的数据,包括图像、视频、语音、音频和文本,以满足您特定的人工智能程序需求。我们提供多种数据采集方案和服务,百分百满足您的需求。 我们的数据采集方案以包容性为出发点。借助遍布全球的、多元化的标注员,我们支持客户开发代表您的客户的数据。我们拥有超过25年的专业经验,与您携手最大限度地优化数据传输效率。 请联系我们,讨论您的数据采集需求。

澳鹏拥有百万众包团队,涵盖全球170+个国家与地区,支持您的全球数据采集需求,针对您的AI应用场景进行数据定制。