ImageBind开源融合六种数据的多感官 AI 模型


新的 ImageBind 模型结合了文本、音频、视觉、运动、热和深度数据。这只是一个研究项目,但却展示了未来的人工智能模型如何能够生成多感官内容。

Meta 宣布了一种新的开源 AI 模型,该模型将多种数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。

该模型目前只是一个研究项目,没有直接的消费者或实际应用,但它指向了可以创造沉浸式、多感官体验的生成式人工智能系统的未来,并表明在 OpenAI 和谷歌等竞争对手变得越来越神秘的时候,Meta 仍在继续分享人工智能研究。

这项研究的核心概念是将多种类型的数据链接到一个多维索引(或用人工智能术语来说的“嵌入空间”)。这个想法可能看起来有点抽象,但正是这个概念支撑了最近生成式人工智能的繁荣。

多模态人工智能模型是生成式人工智能繁荣的核心

例如,DALL-E、Stable Diffusion 和 Midjourney 等 AI 图像生成器都依赖于在训练阶段将文本和图像链接在一起的系统。它们在视觉数据中寻找模式,同时将这些信息与图像描述联系起来。这使得这些系统能够生成遵循用户文本输入的图片。许多以同样方式生成视频或音频的 AI 工具也是如此。

Meta 表示,其模型 ImageBind 是第一个将六种类型的数据合并到单个嵌入空间的模型。该模型包含的六种类型的数据是:视觉数据(以图像和视频的形式);热数据(红外图像);文本;音频;深度信息;以及最有趣的惯性测量单元 (IMU) 生成的运动读数。(IMU 存在于手机和智能手表中,它们用于一系列任务,从将手机从横向切换到纵向到区分不同类型的身体活动。)

未来的人工智能系统将能够像当前人工智能系统处理文本输入一样交叉引用这些数据。例如,想象一下,一个未来的虚拟现实设备不仅可以生成音频和视觉输入,还可以在物理舞台上生成您的环境和运动。您可以要求它模拟一次漫长的海上航行,它不仅会将您置于船上,背景中有海浪的噪音,还有脚下甲板的摇晃和海风的凉爽。

Meta 在一篇博客文章中指出,未来的模型可以添加其他感官输入流,包括“触觉、语音、嗅觉和大脑 fMRI 信号”。它还声称这项研究“使机器更接近人类同时、全面、直接从多种不同形式的信息中学习的能力。”

当然,这一切都只是推测,这类研究的直接应用可能将受到很大限制。例如,去年,Meta 展示了一种人工智能模型,可以根据文本描述生成简短而模糊的视频。ImageBind 等研究展示了该系统的未来版本如何整合其他数据流,例如生成与视频输出相匹配的音频。

模仿人类感知

ImageBind 致力于通过将不同的数据流绑定在一起来模仿人类的感知,从而促进对环境的整体了解。

通过这种集成,人工智能可以将照片中的物体与相应的声音、3D 形状、温度和动作联系起来。

该模型不需要所有模态同时出现的数据集,从而为人工智能学习提供了更灵活的方法。其应用的一个经典示例是内容创建者使用 ImageBind 通过添加相应的声音来为静态的公鸡和闹钟图像制作动画,从而创建生动的视频序列。

未来的前景和挑战

ImageBind 的潜力巨大。Meta 计划引入更多数据流,例如触觉、语音、嗅觉和大脑 fMRI 信号,以实现更丰富的以人为本的 AI 模型。

然而,必须注意的是,ImageBind 仍处于研究原型阶段,并为实际应用做准备。

人工智能竞赛正在升温,微软和谷歌等科技巨头正在开发新的人工智能模型和工具来吸引用户。

Meta 的努力,尤其是 ImageBind 等工具,被视为迈向多感官 AI 未来的重大进步。然而,他们之前的努力成果 Blenderbot 3 未能超越 OpenAI 的 ChatGPT、微软的 Bing 和谷歌的 Bard AI 等竞争对手。

只有时间才能证明 ImageBind 是否能够使 Meta 占据优势。

与此同时,竞赛仍在继续,OpenAI 正在开发一种新工具来了解语言模型的工作原理,而谷歌支持的竞争对手 Anthropic 则专注于内容审核的“宪法人工智能”。