GPT-4o发布,使 ChatGPT 的速度提高了一倍,实现“自然对话”


致力于对话式AI(人工智能)“Chat GPT”的美国初创公司OpenAI宣布开发出新型AI“GPT-4o” ‘。与之前的型号相比,处理速度提高了一倍,而运营成本则减半。当与人交谈时,它们可以以与人类相同的反应速度进行交流。

OpenAI 宣布了其生成式人工智能 GPT 的新模型,称为 GPT-4o。 o 代表“全能”。 Omni(omni)是一个表达一切、整体、所有方向的词。GPT-4o是迈向更自然的人机交互的一步。GPT-4o 是一种多模式 AI,它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合的输出。

在演示的现场演示中,该公司提供了用户与配备 GPT-4o 的 iOS 版本 ChatGPT 交互的视频。如何流畅、自然的节奏回答语音问题和问题,如何向ChatGPT展示人类现场写在纸上的简单数学问题的视频,以及ChatGPT如何正确解决问题我都做了演示。

尽可能接近人类的延迟

在当天举行的网络演示会上的演示中,开发者要求 Chat GPT 向聊天 GPT 朗读一个基于哄孩子睡觉的场景的故事。他以图形风格确定了自己的语气,并演示了如何边唱歌边朗读。演示者以相当重叠的方式与 ChatGPT 交谈,但当重叠时,他们会在句子中间停止并进入聆听模式,这与人类类似。

GPT-4o 的特点是语音响应速度快,听起来自然。据OpenAI介绍,它平均可以在320毫秒内响应语音,这非常接近人类的反应速度。实时翻译(演示中为英语←→意大利语)也是无缝的,据说支持 50 多种语言。

桌面应用程序也可用

随着 GPT-4o 的发布,ChatGPT 桌面应用程序也随之推出。免费用户也可以使用它,但目前仅适用于 macOS 。它展示了 ChatGPT 如何接收桌面上显示的编程代码和图形并解释内容。ChatGPT 适用于 Mac 的桌面应用程序。我给他们编程代码并让他们解释内容。

您还可以让 ChatGPT 通过显示屏幕本身来解释图表。

此外,这款应用未来还将能够使用GPT-4o的高性能音频和视频功能

GPT-4o 也将提供给免费用户。此前,ChatGPT免费用户可以使用的型号最高为“GPT-3.5”,需要付费才能使用“GPT-4”。

OpenAI 成员 William Fedas 表示:“这(GPT-4o)不仅是世界上最好的模型,而且它将在 ChatGPT 上免费提供,这对于尖端模型来说是前所未有的。”