多模态大型语言模型可以通过语音、文本和视觉输入实现用户和人工智能系统之间更自然、直观的通信,从而增强人机交互。这可以在聊天机器人、虚拟助理和内容推荐系统等应用程序中带来更加上下文相关和全面的响应。它们建立在传统单峰语言模型(例如 GPT-3)的基础上,同时结合了处理不同类型数据的附加功能。
然而,多模态大型语言模型可能需要大量数据才能表现良好,这使得它们的样本效率低于其他人工智能模型。在训练期间对齐来自不同模式的数据可能具有挑战性。由于缺乏错误传播方面的通用端到端训练,内容理解和多模态生成能力可能非常有限。由于不同模块之间的信息传输完全基于大型语言模型产生的离散文本,因此噪音和错误是不可避免的。确保每种模式的信息正确同步对于实际培训至关重要。
为了解决这些问题,计算学院 (NUS) NeXT++ 的研究人员创建了NexT-GPT。它是一种任意对任意的多模态大型语言模型,旨在处理文本、图像、视频和音频模式的任意组合的输入和输出。它允许编码人员将输入编码为多种模式,随后将其投影为 LLM 表示形式。
他们的方法涉及修改现有的开源LLM作为处理输入信息的核心。投影后,用特定指令产生的多模态信号被路由到不同的编码器,最终以相应的模态生成内容。从头开始训练模型成本高昂,因此他们使用现有的高性能预训练编码器和解码器,例如 Q-Former、ImageBind 和最先进的潜在扩散模型。
我们引入了一种轻量级对齐学习技术,其中编码端以 LLM 为中心的对齐和解码端的指令跟踪对齐只需最少的参数调整即可实现有效的语义对齐。他们甚至引入了模态切换指令调整,使您的任意 MM-LLM 具有人类水平的能力。这将弥合不同模态特征空间之间的差距,并确保其他输入的流畅语义理解,以实现 NExT-GPT 的对齐学习。
模态切换指令调优 (MosIT) 支持复杂的跨模态理解和推理,并支持复杂的多模态内容生成。他们甚至构建了一个包含各种多模态输入和输出的高质量数据集,提供了促进训练 MM-LLM 处理不同用户交互并准确提供所需响应所需的复杂性和可变性。
最终,他们的研究表明了任意 MMLLM 在弥合多种模式之间的差距方面的潜力,并为未来更加类似于人类的人工智能系统铺平了道路。