如果你正在阅读这篇文章,那么你可能已经听说过大型语言模型 (LLM)。谁没有听说过呢?归根结底,LLM 是推动正在进行的生成式 AI 革命的超级流行工具的幕后推手,包括ChatGPT、Google Bard和DALL-E。
为了发挥其魔力,这些工具依靠强大的技术,使其能够处理数据并生成准确的内容以响应用户提出的问题。这就是 LLM 发挥作用的地方。
本文旨在向您介绍 LLM。阅读完以下部分后,我们将了解 LLM 是什么、其工作原理、不同类型的 LLM 及其示例,以及它们的优点和局限性。
什么是大型语言模型?
LLM 是用于建模和处理人类语言的 AI 系统。它们之所以被称为“大型”,是因为这类模型通常由数亿甚至数十亿个定义模型行为的参数组成,这些参数是使用大量文本数据进行预训练的。
LLM 的底层技术称为 Transformer 神经网络,简称为Transformer 。我们将在下一节中更详细地解释,Transformer 是深度学习领域的一种创新神经架构。
2017 年,谷歌研究人员在著名论文《Attention is All You Need 》中提出了transformers,它能够以前所未有的准确度和速度执行自然语言 (NLP) 任务。凭借其独特的功能,transformers 为 LLM 的能力带来了重大飞跃。可以说,没有 transformers,当前的生成式 AI 革命就不可能实现。
上图展示了这一演变过程。我们可以看到,第一批现代 LLM 是在 transformer 开发之后立即创建的,其中最显著的例子是BERT (谷歌为测试 transformer 的功能而开发的第一个 LLM),以及 GPT-1 和 GPT-2,这是 OpenAI 创建的 GPT 系列中的前两个模型。但直到 2020 年代,LLM 才成为主流,越来越大(就参数而言),因此也更加强大,有GPT-4和LLaMa等著名例子。
大型语言模型 (LLM) 如何运作?
现代 LLM 成功的关键在于 transformer 架构。在 Google 研究人员开发出 transformer 之前,对自然语言进行建模是一项非常具有挑战性的任务。尽管出现了复杂的神经网络(即循环神经网络或卷积神经网络),但结果只是部分成功。
主要挑战在于这些神经网络用于预测句子中缺失单词的策略。在 Transformer 出现之前,最先进的神经网络依赖于编码器-解码器架构,这是一种功能强大但耗时耗资源的机制,不适合并行计算,因此限制了可扩展性的可能性。
Transformer 为传统神经网络提供了一种处理序列数据(即文本)的替代方案(尽管 Transformer 也已用于其他数据类型,如图像和音频,并取得同样成功的结果)。
LLM课程组成部分
Transformer 基于与循环神经网络和卷积神经网络相同的编码器-解码器架构。这种神经架构旨在发现文本标记之间的统计关系。
这是通过嵌入技术的组合来实现的。嵌入是高维向量空间中标记(例如句子、段落或文档)的表示,其中每个维度对应于语言的学习特征或属性。
嵌入过程发生在编码器中。由于 LLM 的规模巨大,创建嵌入需要大量训练和大量资源。然而,与之前的神经网络相比,Transformer 的不同之处在于嵌入过程高度可并行,从而实现更高效的处理。这要归功于注意力机制。
循环神经网络和卷积神经网络完全基于前面的单词进行单词预测。从这个意义上讲,它们可以被认为是单向的。相比之下,注意力机制允许 Transformer 双向预测单词,即基于前面和后面的单词。注意力层的目标是捕捉输入句子中不同单词之间存在的上下文关系,它包含在编码器和解码器中。
LLM训练
训练 Transformer 涉及两个步骤:预训练和微调。
预训练
在此阶段,Transformer 将使用大量原始文本数据进行训练。互联网是主要数据源。
训练使用无监督学习技术完成,这是一种不需要人工操作来标记数据的创新训练类型。
预训练的目的是学习语言的统计模式。实现 Transformer 更高准确率的最先进的策略是扩大模型(这可以通过增加参数数量来实现)并增加训练数据的大小。因此,大多数先进的 LLM 都带有数十亿个参数(例如,PaLM 2 有 3400 亿个参数,而 GPT-4 估计有大约 1.8 万亿个参数),并且已经在庞大的数据语料库上进行了训练。
这种趋势带来了可访问性问题。考虑到模型和训练数据的规模,预训练过程通常非常耗时且成本高昂,只有少数公司能够负担得起。
微调
预训练可以让转换器获得对语言的基本理解,但这不足以高精度地执行特定的实际任务。
为了避免训练过程中耗时且成本高昂的迭代,Transformer 利用迁移学习技术将(预)训练阶段与微调阶段分开。这样一来,开发人员可以选择预先训练的模型,并根据更窄、特定领域的数据库对其进行微调。在许多情况下,微调过程是在人工审阅人员的协助下进行的,使用一种称为“从人工反馈中强化学习”的技术。
两步训练过程使 LLM 能够适应广泛的下游任务。换句话说,这一特性使 LLM 成为在其之上构建的无数应用程序的基础模型。
LLM的多模态性
第一个现代 LLM 是文本到文本模型(即,它们接收文本输入并生成文本输出)。然而,近年来,开发人员创建了所谓的多模式 LLM。这些模型将文本数据与其他类型的信息相结合,包括图像、音频和视频。不同类型的数据的组合使得创建复杂的特定任务模型成为可能,例如 OpenAI 的DALL-E用于图像生成,以及 Meta 的AudioCraft用于音乐和音频生成。
LLM 有何用途?
在 transformer 的支持下,现代 LLM 在多个 NLP 任务中取得了最先进的性能。以下是 LLM 提供独特结果的一些任务:
- 文本生成。像 ChatGPT 这样的 LLM 能够在几秒钟内创建长而复杂且类似人类的文本。
- 翻译。当 LLM 接受多种语言的训练时,它们可以执行高级翻译操作。有了多模态性,可能性是无穷无尽的。例如,Meta 的SeamlessM4T模型可以根据任务执行多达 100 种语言的语音到文本、语音到语音、文本到语音和文本到文本的翻译。
- 情绪分析。可以使用 LLM 进行各种情绪分析,从正面和负面的电影评论预测到营销活动意见。
- 对话式人工智能。作为现代聊天机器人的底层技术,LLM 非常适合在复杂的任务中提问、回答和进行对话。
- 自动完成。LLM可用于自动完成任务,例如在电子邮件或消息服务中。例如,Google 的 BERT 为 Gmail 中的自动完成工具提供支持。
LLM的优势
LLM 对组织来说具有巨大的潜力,ChatGPT 的广泛采用就证明了这一点,它在发布仅几个月后就成为了有史以来增长最快的数字应用程序。
LLM 的商业应用已经非常丰富,随着这些工具在各个行业和领域越来越普及,其用例数量只会不断增加。下面列出了 LLM 的一些优势:
- 内容创建。LLM是功能强大的各种生成式 AI 工具。凭借其功能,LLM 是生成内容(主要是文本,但与其他模型结合,它们还可以生成图像、视频和音频)的绝佳工具。根据微调过程中使用的数据,LLM 可以在您能想到的任何领域提供准确的、特定领域的内容,从法律和金融到医疗保健和营销。
- 提高 NLP 任务的效率。如上一节所述,LLM 在许多 NLP 任务中提供了独特的性能。它们能够理解人类语言并以前所未有的准确性与人类互动。然而,需要注意的是,这些工具并不完美,仍然可能产生不准确的结果,甚至总体上产生幻觉,
- 提高效率。LLM的主要商业优势之一是,它非常适合在几秒钟内完成单调、耗时的任务。虽然公司可以从这种效率飞跃中受益,前景广阔,但对工人和就业市场也有深远的影响,需要考虑。
LLM的挑战和局限性
LLM 处于生成式 AI 革命的最前沿。然而,正如新兴技术的发展一样,能力与责任并存。尽管 LLM 具有独特的能力,但必须考虑其潜在的风险和挑战。
下面,您可以找到与广泛采用 LLM 相关的风险和挑战列表:
- 缺乏透明度。算法不透明是与 LLM 相关的主要问题之一。这些模型由于其复杂性而经常被贴上“黑盒”模型的标签,这使得无法监控其推理和内部运作。专有 LLM 的 AI 提供商通常不愿意提供有关其模型的信息,这使得监控和问责变得非常困难。
- LLM 垄断。鉴于开发、训练和运营 LLM 需要大量资源,市场高度集中在一群拥有必要专业知识和资源的大型科技公司手中。幸运的是,越来越多的开源 LLM正在进入市场,使开发人员、AI 研究人员和社会更容易理解和运营 LLM。
- 偏见和歧视。有偏见的LLM模式可能导致不公平的决策,而这往往会加剧歧视,尤其是针对少数群体的歧视。同样,透明度对于更好地理解和解决潜在偏见至关重要。
- 隐私问题。LLM的训练主要使用大量数据,这些数据主要来自互联网。通常,这些数据通常包含个人数据。这可能导致与数据隐私和安全相关的问题和风险。
- 道德考量。LLM有时会导致对我们的生活产生严重影响的决定,对我们的基本权利产生重大影响。我们在另一篇文章中探讨了生成式人工智能的道德问题。
- 环境考虑。研究人员和环境监督机构对 LLM 训练和运营的环境足迹表示担忧。专有 LLM 很少发布有关 LLM 所消耗的能源和资源的信息,也不会发布相关的环境足迹,这对于这些工具的快速采用来说是一个极大的问题。
LLM (LLM) 的不同类型和示例
LLM 的设计使其具有极高的灵活性和适应性。这种模块化转化为不同类型的 LLM,特别是:
- 零样本LLM (Zero-shot LLM)。这些模型无需接受任何训练示例即可完成任务。例如,考虑一个能够根据新词与文本其余部分的位置和语义关系理解新俚语的LLM (LLM)。
- 微调的 LLM。开发人员采用预先训练的 LLM 并使用新数据对其进行微调以达到特定目的的情况非常常见。要了解有关 LLM 微调的更多信息,请阅读我们的文章《微调 LLaMA 2:定制大型语言模型的分步指南》。
- 特定领域的LLM。这些模型专门用于捕捉特定领域或部门(例如医疗保健或法律)的术语、知识和特殊性。在开发这些模型时,选择精选的训练数据非常重要,这样模型才能满足该领域的标准。
如今,专有和开源 LLM 的数量正在迅速增长。您可能已经听说过 ChatGPT,但 ChatGPT 不是 LLM,而是基于 LLM 构建的应用程序。具体来说,ChatGPT 由 GPT-3.5 提供支持,而 ChatGPT-Plus 由 GPT-4 提供支持,后者是目前最强大的 LLM。要了解有关如何使用 OpenAI 的 GPT 模型的更多信息,请阅读我们的文章通过 Python 中的 OpenAI API 使用 GPT-3.5 和 GPT-4。
下面,您可以找到一些其他受欢迎的 LLM 列表:
- BERT。谷歌于 2018 年推出并开源,BERT 是最早的现代 LLM 之一,也是最成功的 LLM 之一。查看我们的文章什么是 BERT?了解有关此经典 LLM 的所有信息。
- PaLM 2。PaLM 2 比其前身 PaLM 更先进,它是 Google Bard 的 LLM 引擎,Google Bard 是与 ChatGPT 竞争的最雄心勃勃的聊天机器人。
- LLaMa 2。LLaMa 2 由 Meta 开发,是市场上最强大的开源 LLM 之一。要了解有关此课程和其他开源 LLM 的更多信息,我们建议您阅读我们的专门文章,其中包含8 个顶级开源 LLM。
结论
LLM (LLM) 正在推动当前的生成式人工智能热潮。其潜在应用如此广泛,以至于包括数据科学在内的每个部门和行业都可能在未来受到LLM (LLM) 的采用的影响。
可能性是无穷无尽的,但风险和挑战也同样存在。LLM课程具有变革性,引发了人们对未来以及人工智能将如何影响就业市场和我们社会的许多其他方面的猜测。这是一个重要的辩论,需要坚定而集体地解决,因为这关系到很多事情。