如何自信地部署人工智能(AI)

12/24/2020

提升业务价值的人工智能方法

人工智能 (AI) 已经在变革业务、降低成本、最大限度地提高收入并增强客户体验。许多组织开始注意到:到 2025 年,AI 市场规模预计将增长到 3909 亿美元,而且该领域的行业也呈现出类似的发展趋势——例如,到 2023 年,汽车 AI 预计将同比增长 35%,而制造业 AI 可能会增长 72.2 亿美元。我们看到各组织也在加速采用 AI 项目。据研究机构 Gartner 报告称,企业平均采用的 AI 项目数预计从 2019 年的 4 个上升至 2022 年的 35 个。 即使有如此巨大的增长,部署 AI 的挑战依然存在。根据顶级行业分析师的说法,大多数(约 80%)的 AI 项目在试验阶段或概念验证阶段就止步不前,从未进入生产阶段。在许多情况下,是由于缺乏高质量数据所致。在这一 AI 所作决策将具有越来越深远影响的时代,许多企业仍然难以实现合乎道德和负责任的 AI,而他们面临的障碍,往往是缺乏资源或内部人才来建立公正的模型。企业在扩展和自动化方面也面临着艰巨的挑战。尽管技术主管热衷于将开发运维 (DevOps) 应用于 AI,但他们仍要费力地设计一种解决方案来实现端到端机器学习 (ML) 管道的自动化。 预先开发正确的工具和策略将有助于克服这些挑战,使企业获得开展部署的信心和扩展的潜力。


训练、部署和调整 ML 模型的技术和工具

如果说自信地部署 AI 有什么关键要点的话,那就是:一切在于数据。您深知,您需要高质量的训练数据来推出有效的模型。因此,预先定义数据策略(包括数据管道)对于成功至关重要。为了说明这一点,让我们一步一步来了解什么是合理的 ML 管道:

采集和标注数据

许多数据科学家和机器学习工程师表示,他们花费约 80% 的时间来整理数据。这是个沉重的负担,但如果没有训练数据,模型将无法正常工作。随后是模型构建过程,从收集和标注训练数据开始。 您需要从制定明确的数据采集策略开始。思考您的目标使用场景,并确保您的数据集可代表各个使用场景。制定一个用于收集各种数据集的明确计划。例如,如果您要为自动驾驶汽车构建 AI,则可能需要能够代表不同地理位置、天气和一天中不同时段的数据。 接下来,您要实施数据标注流程,在大多数情况下,这个流程需要来自不同人群的人工标注者。标签越准确,最终模型的预测就会越精确。多样的视角将使您能够涵盖更广泛的用途和边缘案例。 在数据采集和标注阶段,制定正确的工具计划至关重要。确保将质量保证检查也整合到您的流程当中。鉴于此步骤占用 AI 项目的大部分时间,因此与该领域的数据合作伙伴开展合作尤为有益。

训练和验证模型

准备好训练数据后,您要使用该数据来训练模型。大多数 ML 模型利用监督式学习方式,这意味着您需要使用人工来进行实地监测。人工监测员将通过检查来确保模型做出准确的预测。这个阶段通常很关键,但工作负担较轻。如果在此阶段发现模型不能正常工作,您要返回之前的步骤并确保您的训练数据确实是您需要的数据。进行优化,重点关注该模型应带来的业务价值。

自信地部署并调整模型

模型达到所需的准确程度后,即可启动。部署后,模型将开始面对真实世界的数据。继续评估模型的输出;如果模型无法输出正确的数据,再将数据转回到验证阶段。有益的做法是坚持使用人机协同来手动检查模型的准确性,并在出现低置信度预测或错误时提供校正后的反馈。 请记住,部署后要定期调整模型。据咨询机构麦肯锡 (McKinsey) 报告,有 33% 的实时 AI 部署需要进行“至关重要的”每月数据更新,以便随着市场条件的变化保持准确性阈值。我们在 2020 年《AI 全景报告》中报告过,75% 的组织表示,他们必须至少每季度更新一次 AI 模型。无论如何,应该持续监测每个模型的数据偏差,以确保模型不会随着时间的流逝而降低效率甚至过时。


真实成功案例

企业正在利用 AI 开展许多非常有趣的工作。以下示例表明,拥有集成数据管道对自信地部署尤为重要。

农业

2017 年,约翰·迪尔 (John Deere) 收购了蓝河科技 (Blue River Technologies),准备与之联手进行农药使用方式的彻底变革。他们的 AI 模型使用无人机和计算机视觉算法来识别农田中的杂草。这样做可以使农药只喷洒在杂草上而避开田间的所有农作物。他们以往的农药支出约为每年 200 亿美元,但通过这些努力,有望将农药成本减少 90%。 该 AI 项目采用的方法是精确图像分割。该方法需要在像素级别上标注数据,以确定图像的哪个部分是杂草,哪个部分是农作物。可以想象,这个标注过程非常复杂,并且要耗费很多时间。该过程既需要全面的工具界面,又需要具有深厚的图像分割专业知识的人工校正员。

制造业

制造业正在使用 AI 来实现物流和供应链的自动化。例如,诺基亚使用机器学习技术提醒装配操作员注意质量偏差。具体来说,就是指出生产过程中存在的不一致之处。AI 还可以作为智能工厂监测系统的一部分来监测和跟踪包裹,从而缩短交货时间并防止库存过多,它还可以监测吞吐量和停机时间等从成本角度来看非常重要的因素。 制造业中的数据工作流高度依赖制造业的类型和供应链的性质。可能需要从各种机器和传感器收集数据并进行汇总,以创建易于人类理解的分析。

汽车行业

汽车 AI 有许多值得强调的趋势,包括自动化和安全性,语音帮助,以及个性化,等等。自动驾驶汽车可能是最受关注的领域,因为它们能够极大地改变我们的日常生活。 当我们考察那些与构建 AI 赋能的全自动车辆有关的 ML 工作流时,会发现它们变得越来越复杂。要有效地训练算法,需要有大量的传感器数据(例如摄像机、LIDAR 和 RADAR)。在这一领域,工具增强对于构建安全、高效的 AI 至关重要。 不过,这一点不仅限于自动驾驶汽车。日产汽车尼桑 (Nissan) 使用机器学习增加从试驾体验中转化的人数,通过不断分析 1,000 多个数据点,将试驾体验的转化数量增加了 900% 以上。 这些示例表明,许多 AI 使用场景需要复杂的数据管道来支持准确的模型。对于此类案例,成功与失败的差别很可能在于预先制定了正确的数据策略。


ML 工作流有助于自信地部署并实现业务价值

开发自动化、集成且可扩展的数据和模型管道将帮助您提高交付速度和对模型的信心。确保模型成功的关键步骤很多,但最关键的步骤之一是确保训练数据的准确性。 由于数据收集和标注需要花费大量时间,并且需要定期进行重新训练和优化,因此即使是 AI 领域的大型领先企业也会求助于数据合作伙伴。数据合作伙伴可以减少您的团队在模型构建过程为这部分工作花费的时间,并帮助您执行模型质量检查,以确保模型在扩展时仍然是准确的。详细了解澳鹏如何帮助您自信地部署并支持您的数据采集标注需求。

澳鹏为您的模型搭建及AI部署提供全生命周期的数据支持,包括数据采集、标注、模型测试以及数据集。