在人工智能这个充满活力的领域,多模态大型语言模型 (MLLM) 的出现正在彻底改变我们与技术的互动方式。这些尖端模型超越了传统的基于文本的界面,预示着一个新时代的到来,在这个新时代,人工智能可以理解和生成各种格式的内容,包括文本、图像、音频和视频。本文旨在揭开多模态 LLM 的复杂性,说明它们不仅改变了人工智能格局,而且还重新定义了人机交互的界限。我们将探索它们整合和解释各种形式数据的独特能力,提供前所未有的情境理解和交互水平。
多式联运可能意味着下列一项或多项:
- 输入和输出具有不同的形式(例如文本到图像、图像到文本)
- 输入是多模式的(例如,可以同时处理文本和图像的系统)
- 输出是多模式的(例如,可以生成文本和图像的系统)
让我们看看 GPT-4V,这是來展望大型语言模型 (LLM)。
GPT-4V:行业领导者
特征:
- 闭源
- OpenAI 未披露的架构
- 使用视觉转换器和视觉语言模型
- 在各种用例中均具有出色的性能
- 使用 1.7T 个数据点进行训练
- 最先进的光学字符识别 (OCR)
多模态语言模型 (LLM) 旨在处理和生成跨多种模态的内容,将文本与图像、音频或视频等其他形式的数据相结合。以下是使用 GPT-4V 展示的多模态 LLM 的一些用例:
- 数字化笔记:
所提供图像的左侧显示了笔记本中的手写笔记的图片,右侧是将此图像作为提示提供给 GPT-4V 后提取的数字化文本。
- 理解复杂事物:
使用 GPT-4V 可以轻松理解复杂的停车标志或破译古代手写文字。
- 将屏幕截图转换为可用的代码:
在下面给出的图像中,第一个组件是提供给 GPT-4V 的设计的屏幕截图,第二个组件是生成的输出,它是使用 MUI 组件在 React 中编写的组件。
- 将白板转换成可用的代码、图表或报告
- 将设计转化为网站
多模态大型语言模型 (MLLM) 将自然语言处理 (NLP) 的功能与图像、音频或视频等其他模态相结合。多模态 LLM 的架构和功能可能有所不同,但它们通常遵循类似的模式。以下是它们工作原理的高级概述:
- 针对每种数据模态的编码器,为该模态的数据生成嵌入。
- 将不同模态的嵌入对齐到同一多模态嵌入空间的方法。
- 生成文本响应的语言模型。由于输入可以同时包含文本和视觉效果,因此需要开发新技术,使语言模型不仅能够根据文本,还能根据视觉效果来调节其响应。
现在我们已经看到了 GPT-4V 视觉能力的一些用例,让我们来看一下 Vision Transformer(ViT)的架构,它是这些视觉大型语言模型的编码器。
视觉转换器(ViT)
Vision Transformers (ViTs) 是一种专门为处理图像而设计的人工智能模型。它们代表了机器学习中处理图像方式的重大转变,与多年来在图像处理中占主导地位的更传统的卷积神经网络 (CNN) 有所不同。以下是它们主要方面的细分:
- Transformer 架构: Transformer 最初是为自然语言处理任务而开发的,是一种擅长捕捉数据中的关系和依赖关系的模型。Vision Transformers 采用这种架构来处理图像数据。
- 图像处理方法:与通过一系列局部滤波器(卷积)处理图像的 CNN 不同,ViT 将图像划分为一系列较小的固定大小的块。然后,每个块被展平并线性变换为嵌入。这些嵌入被输入到 Transformer 模型中。
- 注意力机制: Transformer 的核心是注意力机制,它允许模型按顺序关注图像的不同部分,理解不同图像块之间的上下文和关系。该机制特别擅长捕捉图像内的全局依赖关系。
- 可扩展性和效率: ViT 具有高度可扩展性,可以从增加的数据和计算能力中获益匪浅。它们表现出了卓越的效率和准确性,特别是在大规模图像识别任务中,有时甚至优于传统的 CNN。
- 应用: Vision Transformers 已应用于各个领域,例如图像分类、对象检测,甚至应用于传统图像处理以外的领域,如医学图像分析。
- 数据密集型特性: ViT 面临的挑战之一是它们通常需要大量数据才能实现最佳性能。这种数据密集型特性使得它们在数据有限的情况下难以完成任务。
- 适应性强、可推广: ViT 已证明具有在不同任务和数据集中良好推广的能力,使其成为机器学习工具包中的多功能工具。
架构:
ViT 的工作原理是修补图像并为每个扁平化补丁生成嵌入。然后,通过将这些嵌入传递到 GPT 等转换器编码器来对其进行分类。
现在我们对 Vision Transformers 有了一定的了解,让我们讨论一下目前可用的一些可免费使用的替代大型多模态模型 (LMM):
Macaw-LLM
Macaw-LLM 是一项探索性努力,它以 CLIP、Whisper 和 LLaMA 为基础,通过无缝结合图像🖼️、视频📹、音频🎵 和文本📝 数据,开创了多模态语言建模。
特征:
- 开源,知识共享署名-非商业性使用 (CC BY-NC) 4.0 许可证
- 图文音频视频一体化
- 使用 CLIP 编码图像和视频帧,使用 Whisper 编码音频数据,使用 Llama/Vicuna/Bloom 生成文本和响应
架构:
Meta 的 ImageBind
ImageBind 是首个能够同时绑定来自六种模态的数据而无需明确监督的 AI 模型。该模型旨在创建一个统一的特征空间,可容纳各种模态,包括图像和视频、音频、文本、深度、热和惯性测量单元 (IMU),而无需进行微调。这一突破通过使机器能够更有效地集体分析各种形式的信息,促进了 AI 的发展。
特征:
- 开源,知识共享署名-非商业-相同方式共享 (CC BY-NC-SA) 4.0 许可证
- 六种模式:图像和视频、音频、文本、深度、热和惯性测量单元 (IMU)
- 学习将多个感官输入结合在一起的单一嵌入空间
- 支持基于音频的搜索、跨模态搜索、多模态算法和跨模态生成。
架构:
ImageBind 基于 CLIP 架构。下图是 CLIP 论文的扩展版本。与 CLIP 一样,ImageBind 以相同的方式利用了 InfoNCE 损失。
表现:
在某些模式中,ImageBind 的表现优于 AudioMAE 和 MultiMAE 等专业模型。
LLaVA:大型语言和视觉助手
LLaVA 代表一种新颖的端到端训练的大型多模态模型,它结合了视觉编码器和 Vicuna,用于通用的视觉和语言理解,实现了令人印象深刻的聊天功能,模仿了多模态 GPT-4 的精神,并在 Science QA 上设定了新的最先进的准确性。
特征:
- 开源,Apache 2.0 许可证
- OpenAI 的 CLIP ViT-L/14 与 Vicuna/LLaMa LLM 之间的联系
- 通过使用提供的图像中的投影矩阵并将其输入到 LLM 来工作
- 与 GPT-4 相比,Llava 的相对得分为 85.1%
架构:
表现:
下图显示了 LLaVA 与 Science-QA 以及其他 LLM 的表现对比。
例子:
示例 1:极度熨烫
在这个例子中,我们可以看到 LLaVA 对图像的异常性质提供了很好的解释。虽然它不认为这是幽默,但其中没有幻觉或不相关的数据。
示例 2:复杂停车标志
LLaVA 的 OCR 读取了第一个大型停车标志,上面用红色写着“禁止停车”,并得出结论,不建议在这里停车。但是,图像中有一个标志写着“周一至周五下午 4 点至下午 6 点停车 1 小时”。LLaVA 的 OCR 功能不足以从该图像中提取所有信息。输出是错误的,提供的信息与提示不符。
示例 3:白板网站
与 GPT-4V 不同,LLaVA 无法生成任何代码,因为 GPT-4V 可以从白板中输出一个基本的网站。但是,它完全理解流程并说明流程的内容。如果我们使用类似 langchain 的东西并将此输出传递到另一个提示模板中,我们可以创建一个可以执行此特定任务的特定工具。因此,它不是完全无法使用,但也不能满足提示中的要求。
NExT-GPT
NExT-GPT 是第一个端到端的多模式 LLM,它可以感知输入并以文本、图像、视频、音频等的任意组合(任意到任意)生成输出。
特征:
- 开源,BSD 3 条款“新”或“修订”许可证
- 使用 ImageBind 进行多模式嵌入并创建投影层
- StableDiffusion、AudioLDM、Zeroscope 分别用于图像、音频和视频输出模式。
- 可以进一步轻松微调以减少已知的幻觉
- 在某些情况下,与 LLaVA 相比,效果更佳
架构:
- 多模态编码阶段。利用现有的成熟模型对各种模态的输入进行编码。在这里,我们利用 ImageBind,这是一个跨六种模态的统一高性能编码器。然后,通过线性投影层,将不同的输入表示映射到 LLM 可以理解的类似语言的表示中。
- LLM 理解和推理阶段。LLM是 NExT-GPT 的核心代理。从技术上讲,我们使用 Vicuna。LLM 将来自不同模态的表示作为输入,并对输入进行语义理解和推理。它输出 1) 直接文本响应,以及 2) 每种模态的信号标记,作为指示解码层是否生成多模态内容以及如果是则生成什么内容的指令。
- 多模态生成阶段。基于 Transformer 的输出投影层从 LLM 接收带有特定指令的多模态信号(如果有),将信号标记表示映射到后续多模态解码器可以理解的表示。从技术上讲,我们采用当前现成的不同模态生成的潜在条件扩散模型,即用于图像合成的稳定扩散 (SD)、用于视频合成的 Zeroscope 和用于音频合成的 AudioLDM。
表现:
作者在 GitHub 上没有给出明确的评估。NExT-GPT 的最佳性能是文本和音频输入以产生图像,其次是文本、音频和图像输入以产生图像结果。表现最差的操作是文本和视频输入以产生视频输出。
下图显示了 NExT-GPT 功能的一个示例:
例子:
示例 1:极度熨烫
NExT-GPT 对此示例的输出并未捕捉到该男子正在熨烫衣服的事实。它认为该男子正在表演某种特技或“试图到达更高的地方”,这与事实无关。这种解释只是一种简单的幻觉。
示例 2:复杂停车标志
由于 OCR 不正确,NExT-GPT 直接拒绝回答是或否。它确实提供了一些可以采取的后续步骤,以便知道答案。但对于那些可能站在路中间,试图弄清楚是否可以停车的人来说,这不是一个选择。
示例 3:白板网站
NExT-GPT 无法输出此白板网站流程的代码。它提供了一个 Python 风格的注释,其中包含来自任何通用网站的 UI 元素列表。它将其称为代码,并表示它遵循了最佳实践。
认知行为语言模型
CogVLM 是一个功能强大的开源视觉语言模型 (VLM)。CogVLM-17B 拥有 100 亿个视觉参数和 70 亿个语言参数。CogVLM 可以理解和回答各种类型的问题,并且有一个视觉基础版本。 特征:
- 开源,Apache 2.0 许可证
- 视觉变换器 (ViT) 编码器、MLP 适配器、预训练大型语言模型 (GPT) 和视觉专家模块
- 可以进一步轻松微调,以进一步减少幻觉
- 在某些情况下,与 LLaVA 和 NExT-GPT 相比,效果更好。
架构:
CogVLM 模型由四个基本组件组成:视觉转换器 (ViT) 编码器、MLP 适配器、预训练大型语言模型 (GPT) 和视觉专家模块。
表现:
CogVLM-17B 在 10 个经典跨模态基准测试中取得了最佳性能,包括 NoCaps、Flicker30k 字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,并在 VQAv2、OKVQA、TextVQA、COCO 字幕等测试中排名第二,超越或匹配 PaLI-X 55B。CogVLM 还可以与您讨论图像。
例子:
示例 1:极度熨烫
CogVLM 非常恰当地描述了这幅图像的不寻常之处。但最后它提到这名男子穿着黄色衬衫,这在某种程度上强调了场景的意外性。这是不相关的信息,在描述中不需要。
示例 2:复杂停车标志
多次询问 CogVLM 是否允许在特定时间在此位置停车,每次都会提供不同的结果。OCR 与 GPT-4V 之类的东西无法比较,因为它不会读取每个标志并确定是否可以在此位置停车。在第二个输出中,它说允许在周一至周五上午 8 点至下午 6 点在此位置停车,但实际上,只允许从下午 4 点到下午 6 点停车。在第三个提示中,它不鼓励在周三下午 5 点在此位置停车,这与第二个输出相矛盾。
示例 3:白板网站
对于此示例,CogVLM 也给出了如何实现所提供流程的一般概述,后面跟着一个错误的代码片段。因此,输出是错误的,无法使用。
下表可以快速比较上述每种模型的特点。
功能/方面 | GPT-4V | Macaw-LLM | LLaVA | NExT-GPT | CogVLM |
---|---|---|---|---|---|
基础模型 | 基于Transformer的解码器,具有1.77万亿参数 | LLaMA/Vicuna/Bloom | LLaMA/Vicuna(带有修改) | Vicuna | Vision Transformer (ViT) 编码器、MLP适配器、预训练的大语言模型(GPT)和视觉专家模块 |
训练数据 | OpenAI未披露 | 斯坦福Alpaca数据集用于文本数据,COCO VQA数据集用于图像数据,Charades和视频对话数据集用于视频数据 | 通过面向学术任务的VQA数据集和响应格式化提示进行增强 | LLaVA数据集用于图像,Alpaca用于文本,VideoChat用于视频 | 英文图像-文本数据来自MiniGPT-4、LLaVA、LRV-Instruction、LLaVAR和Shikra项目,以及许多经典跨模态工作数据集 |
视觉-语言连接器 | 注意机制,这是一种神经网络技术,使模型能够专注于输入序列或图像的特定部分,从而提高图像字幕任务等的性能 | 注意功能,其中多模态特征作为查询,LLaMA的嵌入矩阵作为键和值 | 完全连接的视频-语言跨模态连接器,功能强大且数据效率高 | LLM-centric多模态对齐 | MLP适配器与文本提示的词嵌入连接 |
视觉编码器 | Vision Transformer,将图像转换为一系列令牌以生成文本、翻译语言或回答问题 | CLIP | CLIP-VIT-L/14@336像素,带有MLP投影 | ImageBind | ViT编码器,类似于GPT-4V |
性能 | 在图像解释、文本识别和代码生成方面优于LLaVA 1.5 | 视频指令数据:Macaw-LLM视频指令数据集 | 在11个基准上实现了最先进的表现 | 未提供信息 | CogVLM-17B在10个经典跨模态基准上达到最先进的性能 |
训练效率 | 未公开披露。可能比其他模型效率低 | 未提供效率信息 | 最终的13B检查点使用1.2M公开可用数据,在一个单独的8-A100节点上完成训练时间约为1天 | 编码端对齐,3x GPUs,批次大小18~30分钟用于40K实例的文本-X对;解码端对齐,3x GPUs,批次大小18~3小时用于180K实例的文本-X对 | 未提供效率信息 |
可用性 | 闭源 | 开源 | 开源 | 开源 | 开源 |
总之,如果对公开可用的模型进行调整以匹配您的应用程序用例,它们都可以作为您的应用程序用例的良好起点。调整这些模型还可以减少幻觉和不必要的输出数据,这些显然被认为是不受欢迎的。
这些模型的开箱即用性能无法与 GPT-4V 在这个领域的庞然大物相比。但话说回来,开源模型作者训练和微调这些模型的资源有限,不像 OpenAI 可以投入数百万美元进行训练,其中一部分来自 API 货币化和与微软等大公司的合作。
好的一面是,像 Meta 和微软研究院这样的公司通过资助项目并将自己的模型和创新开源或免费使用来推动开源协作。这是实现 AI 卓越的途径。