多模态大模型:更加丰富的数据要求
随着人工智能 (AI) 的快速发展,我们正处于一场技术革命之中,这场革命正在重塑行业并改变我们与技术互动的方式。多模态人工智能系统集成了多种类型的数据,例如图像、视频、语音、声音和文本。
通过结合不同类型的数据信息,人工智能模型丰富了情境信息,使其能够实现更接近人类的认知能力。多模态人工智能可以提高准确性和稳健性,例如,识别视频中的对象和环境,从而为文本或音频提供背景信息。这可以通过为具有不同需求的个人提供解决方案,在无障碍方面发挥关键作用,例如,通过将视觉内容转换为描述性音频来“讲述世界”。
多模态生成式人工智能可以为各种应用创建丰富多样的内容,例如构建沉浸式多感官虚拟环境。随着大语言模型 (LLM) 的兴起及其令人印象深刻的类人文本交互,多模态 LLM 正在推动人工智能的下一个前沿,开启人机之间真实自然交互的新时代。
Appen 是一家领先的 AI 数据公司,通过提供高质量的人机交互训练和 AI 模型评估数据,在该领域发挥着至关重要的作用。澳鹏的多模态数据集,可以支持生成式AI实现更加优秀的多模态功能。
多模态AI面临的挑战
尽管多模态AI前景光明,但当今大多数人工智能系统都是单一模态的。一些关键挑战包括:
数据可用性:多模态 AI 模型需要大量、多样化的数据集来进行训练和验证。训练所需的多模态对(如,图文对)在数量和可用性方面都有限。现有的大型开源数据集往往集中在更成熟的多模态数据中,例如文本-图像,并且通常是通用数据集。为特定应用定制多模态AI需要更多的贴合具体用例的数据。
标注质量:与单一模态相比,多模态数据的标注往往更为复杂。例如,视频内容可能涉及时间戳事件、情境化操作以及提供一系列描述。这些开放式描述可能需要专业领域的专业知识和以教学格式进行的标注,这进一步增加了标注过程的复杂性。
评估指标:缺乏公认的基准和评估指标对多模态 AI 系统构成了重大挑战。每一个项目对数据的评估指标一般包括上下文理解程度,以及具体贴合度,但这方面指标均为主观指标,难以统一。同时,开发交叉模态评估的矩阵式指标系统也是一大挑战。
多模态大模型的训练数据
随着大模型越来越受欢迎,人们越来越多地使用开放式自然语言与视觉数据进行交互。关于图像的查询可能很简单,例如“我的冰箱里有哪些蔬菜?”,也可能是更复杂的基于知识的查询,例如“我可以用这些食材做什么菜?”
这些查询可以与不同的输入类型相关,包括图像与视频等;其中视频的查询可以与视频中的帧序列、音轨或语音内容相关。以下我们将介绍几个常见的多模态数据的类型。
多模态数据:Prompt和Response
训练多模态大模型,需要大量多样化的视觉数据以及随附的提示或提示-响应对(Prompt-response pairs)。在多模态标注中,会通过增加特殊标注,建立文本中的关键词以及图像中的对象的联系,来增加数据的维度,并提高模型的性能。
视频到文本
在 LLM 能够回答有关不同模态的查询之前,需要训练模型来“理解”这些数据。此过程涉及创建带有文本描述或视频内容叙述的配对数据集。
在这些方法中,文本被添加到视频中以描述或叙述正在发生的事情。与捕捉视频语音内容的字幕转录不同,文本提供了视频中事件的描述,并可能将事件以叙述顺序链接在一起。可以添加时间戳以将视觉提示与文本中的描述联系起来。视觉媒体本身也可以被标注并链接到文本中的标注以突出显示关键视觉效果,并进一步丰富数据。
通过对视频进行文字描述或旁白,大模型现在可以回答有关视频的问题,例如“这个视频片段中发生了什么”、“这一集的演员是谁”或“按照这个演练给我这个游戏的说明”。
视频、音频与文本
视频的音频内容以及屏幕上的任何文本都为多模态 AI 提供了重要的背景数据。它们使模型不仅可以总结视频中的视觉效果,还可以总结所说的内容和展示的内容。虽然捕获语音内容对于任何包含语音的视频都很重要,但捕获视频内文本对于演示、新闻简报或显示比分的体育赛事等视频尤其重要。
除了转录音频或视频文本外,还可以添加时间戳,将音频和视觉提示与其相应的文本链接起来。还可以添加标注,将转录的文本与其在视觉中的位置链接起来。
同时,并非所有音频都是语音,视频可能包含其他声音,例如动物叫声、环境噪音或音乐。对于这些声音,需要描述音频的数据集,以及将关键声音事件与文本描述联系起来的时间戳。
澳鹏拥有丰富的多模态数据标注经验,并自主开发了多模态数据标注工具,为您的多模态大模型提供更高质量的输入,以实现更高精确度的输出。