GPT-4o 是什么？OpenAI 的新多模态 AI 模型

你来这里可能是因为你观看了 OpenAI 的新 AI 模型GPT-4o的非常令人印象深刻且略带恐惧的演示。它已经向许多 ChatGPT 用户推出，所以让我们深入研究一下它能做什么?

什么是 GPT-4o？

GPT-4o 是 OpenAI 推出的最新旗舰 AI 模型，OpenAI 是ChatGPT、DALL·E和我们正在经历的整个 AI 热潮背后的公司。它是一种多模态模型，这意味着它可以原生处理文本、音频和图像，并且以更快的速度和更低的成本提供 GPT-4 级性能（或更佳）。这也标志着免费的 ChatGPT 用户首次能够使用 GPT- 4 模型，到目前为止，他们一直在使用 GPT-3 和 GPT-3.5 Turbo。

GPT-4o 与 GPT-4：GPT-4o 能做什么？

GPT-4o 中的“o”代表“omni（全能型）”。这意味着，除了接受文本输入外，它还可以原生理解音频和图像输入——并且可以用文本、图像和音频的任意组合进行回复。这里的关键是，所有这些都是由一个模型完成的，而不是多个协同工作的独立模型。以 ChatGPT之前的语音模式为例。你可以问它问题，它会用音频回复，但回复需要很长时间，因为它使用了三个独立的 AI 模型来完成。首先，语音转文本模型将你说的话转换成文本，然后 GPT-3.5 或 GPT-4 会处理该文本，然后 ChatGPT 的回复会从文本转换成音频并播放。根据 OpenAI 的数据，使用 GPT-3.5 的平均响应时间为 2.8 秒，使用 GPT-4 的平均响应时间为 5.4 秒。这是一个简洁的演示，但不是特别实用。

但现在，由于 GPT-4o 本身就是多模式的，能够处理音频输入、自然语言处理和音频输出本身，ChatGPT 能够在平均 0.32 秒内回复 – 你可以真正感受到速度。即使是文本和图像查询也明显更快。

如果这种速度是以牺牲性能为代价的，那将是一回事——但 OpenAI 声称 GPT-4o 在英语文本和代码基准上与 GPT-4 不相上下，而在非英语语言、视觉和音频基准上则超越了它。特别是，新的标记器，将文本转换成人工智能可以用数学理解的小块，对于泰米尔语、印地语、阿拉伯语和越南语等语言来说效率要高得多，可以实现更复杂的提示和更好的语言间翻译。

当模型与你对话时，你也可以打断它，不过这个功能将在未来几周内推出。OpenAI 还表示，GPT-4o 更有能力带着情感说话，也能从你的语气中理解你的情绪状态。

图像输入的情况也类似。GPT-4o 明显能更快地回答有关图像的问题，并处理其中的内容（例如手写内容）。这种快速的上下文切换让 ChatGPT 感觉像是一个更有用的现实世界工具。

而这一切都是在 GPT-4 现有功能的基础上实现的。你仍然可以使用它进行头脑风暴、总结、数据分析、市场研究、冷门推广——等等。

GPT-4o 如何工作？

GPT-4o 的工作原理与其他 GPT 模型类似，但其神经网络是在对文本和图像进行训练的同时对图像和音频进行训练的，因此它适合将它们同时作为输入和输出进行处理。不幸的是，我们现在处于 AI 企业竞争的阶段，有趣的细节和进展不再公开。不过，我们可以从其他多模态模型（如Google Gemini）以及 OpenAI 之前的 GPT 模型中推断出一些东西。

GPT-4o 中的 GPT 仍然代表生成式预训练 Transformer，这意味着它的开发和运行方式与其他 GPT 模型类似。生成式预训练是向 AI 模型提供一些基本规则和大量非结构化数据并允许其自行建立联系的过程。除了之前 AI 模型使用的文本训练数据外，GPT-4o 可能还同时获得了数十亿张图像和数万小时的音频以供解析。这将使其神经网络不仅能够建立诸如“牛”这个词之间的联系，还能理解它们的外观（四条腿、乳房、也许还有角）和声音（“哞哞”）。

类似地，GPT-4o 使用的是几乎所有现代 AI 模型也使用的 transformer 架构。虽然在这里深入探讨有点太复杂，但我在这篇关于 ChatGPT 工作原理的深入探讨中更详细地解释了它。要理解的主要一点是，它允许 GPT-4o 理解长而复杂的提示中最重要的部分，并记住同一对话中先前提示中的信息。

除此之外，OpenAI 还在人类的指导下对模型进行了微调，使其尽可能安全和实用。OpenAI 不想意外创建 Skynet，因此他们在发布新模型之前付出了很多努力，使人们很难让它行为不当。最新的人工智能不太可能无缘无故地开始胡言乱语。

GPT-4o 有多好？它真的名副其实吗？

那么，GPT-4o 有多好？在我的测试中，多模态功能时好时坏——尽管当它们发挥作用时非常令人印象深刻。

视觉和音频现在已成为 ChatGPT 整体体验中更重要的一部分，尤其是在使用移动应用程序时。当然，这为 ChatGPT 带来了各种产生幻觉和出错的新途径。但当一切顺利时，效果会非常棒。在 iOS 应用程序上，我能够让 ChatGPT 查找 Red Rum（一匹著名的赛马）那匹马并将其变成 Pokémon 角色——所有这些都无需使用任何类型的文本界面。

诸如此类的事情确实代表了 ChatGPT 和 AI 助手成为人们生活中更有用的一部分的新方式。并不是说 Pokémon Red Rum 特别有用，但应该你明白我的意思。

我发现一个始终存在的问题是信心不足。在我的测试中，GPT-4o 在很多不同场合都犯了错误，而实际上它不应该犯这样的错误。下面是一个例子。

过去，ChatGPT 总是无法帮我解决数独难题。它要么无法分析它们，要么抛出错误，要么断然拒绝。但在 GPT-4o 激活后，ChatGPT 非常愿意冒险一试。

不幸的是，它不仅无法正确“看见”网格，而且还会在随机位置插入随机数字。

然后它试图解决它误解的谜题。它设法把第一个方框和行弄对了，但之后一切都崩溃了——但它仍然准备向我展示一个据称完成的谜题。

类似地，当我要求它解析我的笔迹时，如果有某个部分它无法读取，它只会插入一个合理的单词，而不是说它无法理解那里写的内容。

例如，在我正在研究的一篇文章的手写大纲中，它将要点“平衡仪式”更改为“健身平衡”。这些词同样相关，但在含义或页面上的外观上却完全不同。

这些频繁的差点失误几乎比模型拒绝回答问题或一直完全错误更难处理。话虽如此，它确实非常善于理解我荒谬的笔迹。

最后一点：主要音频功能，例如无需点击即可打断模型或使其说话时更具情感仍在推出，因此我无法测试它们。但它们似乎不太可能导致同样的问题：即使我的爱尔兰口音和 GPT-4，ChatGPT 的音频转录也已经相当不错了。

GPT-4o 的价格是多少？

GPT-4o 的一大亮点是它将免费提供给所有 ChatGPT 用户——尽管有一个未指定的速率限制。ChatGPT Plus（每月 20 美元）的用户可享受五倍的速率，还可以提前使用新功能）。

GPT-4o 也可通过 API 供开发者使用。其每 100 万个输入代币收费5 美元，每 100 万个输出代币收费 15 美元，仅为 GPT-4-Turbo 的一半。

如何尝试 GPT-4o

虽然 GPT-4o 的多模态功能可能不如我希望的那样准确（至少就 ChatGPT 中目前的实现方式而言），但仍有很多值得称道的地方。以下是访问 GPT-4o 的方法：

GPT-4o 的文本和视觉功能已向许多 ChatGPT Plus 订阅者推出，并将很快向 ChatGPT 免费版和企业版用户推出。如果您尚未通过 ChatGPT 访问此功能，请等待几天，然后重试。
如果您是开发人员，现在可以通过 API 使用 GPT-4o。
GPT-4o 将成为即将推出的 ChatGPT 桌面应用程序的关键部分。该应用程序将不再使用键盘快捷键，而是能够利用其视觉功能回答有关屏幕上正在发生的事情的问题。

即使你已经可以访问，你也可能没有他们在发布时演示的所有花哨功能。但请放心：ChatGPT 很快就会为你服务。

Post Views: 1,545

5 7 月, 2024

jsb

文章