OpenAI 的 DevDay 为 AI 应用程序开发人员带来了实时 API


对于 OpenAI 来说这是动荡的一周,充满了 高管离职 和 主要筹款进展,但这家初创公司又卷土重来,试图说服开发人员在 2024 年 DevDay 上使用其人工智能模型构建工具。该公司周二宣布了几款新工具,包括其“Realtime API”的公开测试版,用于构建具有低延迟、人工智能生成的语音响应的应用程序。它并不完全是 ChatGPT 的高级语音模式,但也很接近了。

在活动前向记者举行的吹风会上,OpenAI 首席产品官 Kevin Weil 表示,首席技术官 Mira Murati 和首席研究官 Bob McGrew 最近的离职不会影响公司的进展。

“我首先要说的是,鲍勃和米拉都是出色的领导者。我从他们身上学到了很多东西,他们是我们取得今天成就的重要因素。”韦尔说道。 “而且,我们不会放慢脚步。”

随着 OpenAI 经历另一次高管层改革——提醒人们 去年 DevDay 之后的混乱 – 该公司正试图让开发人员相信,它仍然提供构建人工智能应用程序的最佳平台。领导者表示,该初创公司拥有超过 300 万开发人员使用其 AI 模型进行构建,但 OpenAI 的运营环境竞争日益激烈。

OpenAI 指出,在过去两年中,它已将开发人员访问其 API 的成本削减了 99%,尽管它很可能是受到 Meta 和谷歌等竞争对手不断压低价格的压力。

OpenAI 的一项新功能被称为 Realtime API,它将使开发人员有机会在他们的应用程序中构建近乎实时的语音到语音体验,并可以选择使用 OpenAI 提供的六种语音。这些声音与 ChatGPT 提供的声音不同,开发者不能使用第三方声音,以防止版权问题。

在发布会上,OpenAI 的开发体验主管 Romain Huet 分享了使用 Realtime API 构建的旅行规划应用程序的演示。该应用程序允许用户与人工智能助手口头谈论即将到来的伦敦之旅,并获得低延迟响应。 Realtime API 还可以访问许多工具,因此该应用程序能够在回答时用餐厅位置注释地图。

在另一点上,Huet 展示了 Realtime API 如何通过电话与人交谈,询问有关为活动订餐的信息。与谷歌臭名昭著的 Duo 不同,OpenAI 的 API 无法直接调用餐馆或商店;但是,它可以与 Twilio 等调用 API 集成来实现此目的。值得注意的是,OpenAI 不是 添加披露信息,以便其人工智能模型在此类通话中自动识别自己的身份,尽管这些人工智能生成的声音听起来非常真实。目前,添加此披露似乎是开发人员的责任, 加州新法律可能要求。

作为 DevDay 公告的一部分,OpenAI 还在其 API 中引入了视觉微调功能,这将允许开发人员使用图像和文本来微调他们的 GPT-4o 应用程序。从理论上讲,这应该可以帮助开发人员提高 GPT-4o 在涉及视觉理解的任务中的性能。 OpenAI 产品 API 负责人 Olivier Godement 告诉 TechCrunch,开发者将无法上传受版权保护的图像(例如唐老鸭的图片)、描绘暴力的图像或其他违反 OpenAI 安全政策的图像。

OpenAI 正在竞相追赶 AI 模型许可领域竞争对手已经提供的产品。其提示缓存功能类似于 Anthropic 几个月前推出的功能,允许开发人员缓存 API 调用之间常用的上下文,从而降低成本并改善延迟。 OpenAI 表示开发人员使用此功能可以节省 50%,而 Anthropic 承诺90%折扣 为了它。

最后,OpenAI 提供了模型蒸馏功能,让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。与运行较大的模型相比,运行较小的模型通常可以节省成本,但此功能应该可以让开发人员提高这些小型人工智能模型的性能。作为模型蒸馏的一部分,OpenAI 正在推出一个测试版评估工具,以便开发人员可以在 OpenAI 的 API 中测量其微调的性能。

DevDay 可能会因其未宣布的内容而引起更大的波澜。例如,去年 DevDay 期间没有宣布任何有关 GPT 商店的消息。上次我们听说,OpenAI 一直在与一些最受欢迎的 GPT 创建者试点一项收入分享计划,但自那以后该公司并没有分享太多。

此外,OpenAI 表示不会在今年的 DevDay 期间发布任何新的人工智能模型。等待 OpenAI o1(不是预览版或迷你版)或初创公司的视频生成模型 Sora 的开发人员将不得不等待更长的时间。