什么是大型语言模型(LLM)


大型语言模型是一种人工智能算法,它应用具有大量参数的神经网络技术,使用自监督学习技术来处理和理解人类语言或文本。文本生成、机器翻译、摘要撰写、文本图像生成、机器编码、聊天机器人或对话式人工智能等任务都是大语言模型的应用。此类 LLM 模型的示例包括OpenAI 的 Chat GPT、Google 的 BERT(来自 Transformers 的双向编码器)等。

人们尝试了许多技术来执行与自然语言相关的任务,但LLM纯粹基于深度学习方法。LLM(大型语言模型)模型可以高效地捕获手头文本中的复杂实体关系,并且可以使用我们希望使用的特定语言的语义和句法生成文本。

什么是大型语言模型?

大型语言模型不是一个正式术语,它属于自然语言处理,它使用基于深度学习的模型,例如转换器,其架构中包含数十万个参数,有助于在 NLP 任务上创建更好的结果。随着时间的推移,研究人员探索新的想法,模型的规模开始随着数据语料库、高计算设备、时间消耗和许多其他需求的体系结构要求中使用的参数数量而增长,因此这些模型被命名为大型语言模型。

如果我们只谈论GPT(生成式预训练 Transformer)模型的进步规模:

  • 2018 年发布的 GPT-1 包含 1.17 亿个参数,9.85 亿个单词。
  • 2019年发布的GPT-2包含15亿个参数。
  • 2020年发布的GPT-3包含1750亿个参数。Chat GPT 也是基于这个模型。
  • GPT-4模型预计将于2023年发布,它可能包含数万亿个参数。

LLM的架构

大型语言模型 (LLM) 的架构由多种因素决定,例如特定模型设计的目标、可用的计算资源以及 LLM 将执行的语言处理任务的类型。LLM的总体架构由许多层组成,例如前馈层、嵌入层、注意力层。嵌入其中的文本相互协作以生成预测。

影响大型语言模型架构的重要组成部分:

  • 模型大小和参数数量
  • 输入表示
  • 自注意力机制
  • 培训目标
  • 计算效率
  • 解码和输出生成

基于 Transformer 的 LLM 模型架构

基于Transformer的模型彻底改变了自然语言处理任务,通常遵循包含以下组件的通用架构:

  1. 输入嵌入(Input Embeddings):输入文本被标记为更小的单元,例如单词或子词,并且每个标记被嵌入到连续向量表示中。此嵌入步骤捕获输入的语义和句法信息。
  2. 位置编码(Positional Encoding):位置编码被添加到输入嵌入中,以提供有关标记位置的信息,因为转换器不会自然地对标记的顺序进行编码。这使得模型能够处理标记,同时考虑它们的顺序。
  3. 编码器(Encoder):基于神经网络技术,编码器分析输入文本并创建许多隐藏状态来保护文本数据的上下文和含义。多个编码器层构成了 Transformer 架构的核心。自注意力机制和前馈神经网络是每个编码器层的两个基本子组件。
    1. 自注意力机制(Self-Attention Mechanism):自注意力使模型能够通过计算注意力分数来权衡输入序列中不同标记的重要性。它允许模型以上下文感知的方式考虑不同标记之间的依赖关系和关系。
    2. 前馈神经网络(Feed-Forward Neural Network):在自注意力步骤之后,前馈神经网络独立地应用于每个标记。该网络包括具有非线性激活函数的完全连接层,使模型能够捕获令牌之间的复杂交互。
  4. 解码器层(Decoder Layer):在一些基于变压器的模型中,除了编码器之外还包含解码器组件。解码器层支持自回归生成,其中模型可以通过关注先前生成的标记来生成顺序输出。
  5. 多头注意力(Multi-Head Attention): Transformers 通常采用多头注意力,其中自注意力与不同的学习注意力权重同时执行。这使得模型能够捕获不同类型的关系并同时处理输入序列的各个部分。
  6. 层归一化(Layer Normalization):层归一化应用于变压器架构中的每个子组件或层之后。它有助于稳定学习过程并提高模型泛化不同输入的能力。
  7. 输出层(Output layers):变压器模型的输出层可以根据具体任务而变化。例如,在语言建模中,通常使用线性投影和 SoftMax 激活来生成下一个标记的概率分布。重要的是要记住,基于 Transformer 的模型的实际架构可以根据特定的研究和模型创建进行更改和增强。为了完成不同的任务和目标,GPT、BERT 和 T5 等多种模型可能会集成更多组件或修改。

LLM 的例子有哪些?

现在让我们来看看一些已经开发出来并可供推论的著名LLM。

  • GPT – 3:GPT 的完整形式是生成式预训练 Transformer,这是此类模型的第三个版本,因此编号为 3。这是由 Open AI 开发的,您一定听说过推出的 Chat GPT由 Open AI 开发,只不过是 GPT-3 模型。
  • BERT – 其完整形式是来自 Transformers 的双向编码器表示。这个大型语言模型由谷歌开发,通常用于与自然语言相关的各种任务。此外,它还可用于生成特定文本的嵌入,也可以用于训练其他模型。
  • RoBERTa – 其完整形式是鲁棒优化的 BERT 预训练方法。在一系列提高 Transformer 架构性能的尝试中,RoBERTa 是 Facebook AI Research 开发的 BERT 模型的增强版本。
  • BLOOM – 这是第一个多语言LLM,由不同组织和研究人员联合产生,他们结合各自的专业知识开发了类似于 GPT-3 架构的模型。

大型语言模型有什么用?

LLM如此受欢迎的主要原因是它们在完成各种任务方面的效率。从上面关于LLM的介绍和技术信息你一定已经了解Chat GPT也是一个LLM,所以让我们用它来描述大型语言模型的用例。

  • 代码生成: 该服务最疯狂的用例之一,是它可以为用户向LLM描述的特定任务生成相当准确的代码。
  • 代码的调试和文档: 如果您正在为如何调试某些代码而苦苦挣扎,那么 ChatGPT 就是您的救星,因为它可以告诉您产生问题的代码行以及纠正该问题的补救措施。此外,现在您不必花费数小时编写项目文档,您可以要求 ChatGPT 为您完成此操作。
  • 问答:正如您所见,当人工智能个人助理发布时,人们常常向他们提出疯狂的问题,您也可以在这里这样做以及提出真正的问题。
  • 语言翻译:它可以将一段文本从一种语言转换为另一种语言,因为它支持 50 多种母语。它还可以帮助您纠正内容中的语法错误。

LLM 的用例不仅限于上述用例,只需要有足够的创意来编写更好的提示,您可以让这些模型执行各种任务,因为它们经过训练可以执行一次性学习和零样本任务学习方法也是如此。因此,对于那些期待广泛使用 ChatGPT 类型模型的人们来说,提示工程是学术界一个全新的热门话题。

哪里可以找到大型语言模型?

大型语言模型是在复杂的Transformer架构之上构建的,经过数月的研究和数百万美元的训练费用开发,并为推理提供合适的平台。仅由于这些原因,强烈建议使用许多开源组织提供的预训练模型来将这些模型用于个性化任务。让我们讨论其中一些提供基于 API 的 LLM 的平台,以方便推理和用例。

  • ChatGPT由 OpenAI 于 2020 年开发并发布,包含约 1750 亿个参数,现已作为基于 Web 的应用程序提供,具有易于使用的界面。
  • Hugging Face还在其中心为预训练模型提供 API,以进行微调和推理。BLOOM 就是此类LLM的一个例子,它精通大约 46 种母语和 13 种编程语言的自然语言任务。
  • NVIDIA提供多种服务来轻松处理 LLM,这些服务可能会有所不同,从 NVIDIA BioNemo 到用于构建 LLM 的 NVIDIA Nemo 框架等特定领域的 LLM。

最好的大型语言模型是什么?

一些最好和最广泛使用的大型语言模型如下:

  • OpenAI
  • ChatGPT
  • GPT-3
  • GooseAI
  • Claude
  • Cohere
  • GPT-4

有哪些适合教育的大型语言模型?

如今,大语言模型被广泛用于教育目的,最常见和最适合的LLM工具是ChatGPT,它允许用户修改、生成和总结文本,还可以用大文本概念和主题来总结大文本概念和主题。

在教育中使用 ChatGPT 的一些重要好处如下:

  • 提供学习目标
  • 各种学术和非学术内容都可以借助 Chat-GPT 编写
  • 向学生提供任何主题的批判性总结
  • 教育学生他们想学习的任何主题。

NLP和LLM的区别

NLP 是自然语言处理,是人工智能 (AI) 的一个领域。它包括算法的开发。NLP 是一个比 LLM 更广泛的领域,由算法和技术组成。NLP 规则两种方法,即机器学习和分析语言数据。NLP 的应用是——

  • 自动化日常任务
  • 改进搜索
  • 搜索引擎优化
  • 分析和组织大型文档
  • 社交媒体分析

另一方面,LLM是一种大型语言模型,更具体地针对类人文本,提供内容生成和个性化推荐。

大型语言模型训练的挑战

LLM未来的能力是毫无疑问的,这项技术是大多数人工智能驱动的应用程序的一部分,这些应用程序将被许多用户每天使用。但LLM也有一些缺点。

  • 为了成功训练大型语言模型,需要数百万美元来建立可以利用并行性能训练模型的强大计算能力。
  • 它需要数月的训练,然后需要人工对模型进行微调,以实现更好的性能。
  • 需要获取大量文本语料库,可能是一项具有挑战性的任务,因为 ChatGPT 被指控仅使用非法抓取的数据进行训练,并构建用于商业目的的应用程序。
  • 在全球变暖和气候变化的时代,我们不能忘记LLM的碳足迹,据说从头开始训练一个人工智能模型的碳足迹相当于五辆汽车一生的碳足迹,这是一个非常严重的问题。

结论

由于LLM训练面临的挑战,大力提倡转移学习,以摆脱上述所有挑战。LLM有能力给AI驱动的应用带来革命,但这个领域的进步似乎有点困难,因为仅仅增加模型的大小可能会提高其性能,但在特定时间之后性能就会饱和,处理这些模型所带来的性能提升,将比进一步增加模型尺寸所带来的性能提升更大。

经常问的问题

问题1:什么是人工智能中的大语言模型?

答案:这是一种生成模型,已经在庞大的数据集上训练了数月。这些模型在生成基于语言的输出方面非常高效。不仅在母语中如此,在编程语言中也是如此。

问题 2:排名前 5 的大型语言模型是什么?

答案:实际应用中使用的前 5 个大型语言模型如下:

  • BERT
  • GPT-3
  • LaMDA
  • PaLM
  • Bard

问题3:大型语言模型在哪里训练?

答案:ChatGPT 是 GPT-3 成功使用的一个例子,GPT-3 也是一种大型语言模型,它成倍地减少了工作量,并成倍地提高了内容编写者的效率。不仅在内容写作领域,在基于这些大型语言模型的高效人工智能助手的帮助下,许多任务都得到了简化。