​OpenAI宣布推出GPT-4o旗舰生成式AI模型,可有限免费使用

nidongde2024-05-15 22:06:54116
OpenAI宣布推出了一款名为GPT-4o的全新旗舰生成式AI模型,‘o’代表‘Omni’(全能),指的是该模型可以处理文本、语音和视频。这些功能将在接下来的几周内推出,为所有用户(无论是免费用户还是付费用户)提供语音和视频功能。GPT-4o可以在232毫秒内响应音频输入,平均为320毫秒,类似于对话中人类的响应时间。
OpenAI首席技术官米拉·穆拉蒂表示,GPT-4o提供了与GPT-4相当的智能水平,但在多种模态和媒体上的能力得到了改进。
GPT-4o实时演示:多模态AI互动开启未来人机交互新篇章
穆拉蒂在周一的直播演示中说:“GPT-4o可以处理语音、文本和视觉,这一点非常重要,因为我们正在探索人机交互的未来。”

在这场演示中,穆拉蒂与ChatGPT的开发人员进行了实时对话,要求ChatGPT讲睡前故事。GPT-4o甚至在OpenAI研究员Mark Chen的要求下,以不同的声音开玩笑,有俏皮的、戏剧性的、唱歌的等各种方式。
在语音演示中,我们看到了GPT-4o的视频功能、实时语音通信和模拟情感功能。GPT-4o能理解情绪、语气、语调、语速,能端到端地实时、原生模拟出这些真实的人类反应。这次更新的目标是通过利用先进的AI技术,创造更加自然和无缝的交互,从而减少人机交互的阻力。

GPT-4 Turbo是OpenAI之前“最先进”的模型,它是通过结合图像和文本进行训练的,可以分析图像和文本,完成诸如从图像中提取文本甚至描述图像内容等任务。但是,GPT-4o在此基础上增加了语音。
这样的更新带来了什么好处呢?通过加入语音,GPT-4o可以进一步扩展其应用领域,使其能够处理更多种类的信息,为用户提供更加全面和多样化的服务。这个平台长期以来一直提供了语音模式,使用文本转语音模型将聊天机器人的回复转录成语音,但是GPT-4o让这一功能变得更加强大,使用户可以更像与一个助手进行交互。

举个例子,用户可以向由GPT-4o驱动的ChatGPT提问,并在ChatGPT回答时打断它。OpenAI表示,这个模型提供了“实时”响应,并且甚至可以捕捉到用户语音中的微妙差异,生成“一系列不同情感风格”的声音(包括唱歌)。
GPT-4o视觉与语言能力大升级:实时回答与多语言支持
GPT-4o还提升了ChatGPT的视觉能力。现在,ChatGPT可以根据一张照片,或者是桌面屏幕快速回答相关问题。
穆拉蒂表示,这些功能将在未来进一步发展。尽管今天GPT-4o可以查看一张菜单的照片并翻译成不同语言,但未来,该模型可以让ChatGPT,例如“观看”一场现场体育比赛,并向您解释规则。
“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,您不需要关注UI,而是专注于与ChatGPT的协作,”穆拉蒂说。“在过去的几年里,我们一直专注于提高这些模型的智能...但这是我们在易用性方面迈出的第一步。”

OpenAI声称,GPT-4o也更加多语言化,在大约50种语言中性能得到了增强。公司表示,在OpenAI的API和Microsoft的Azure OpenAI服务中,GPT-4o比GPT-4 Turbo快两倍,价格是后者的一半,并且具有更高的速率。
目前,对于所有客户来说,语音不是GPT-4o API的一部分。OpenAI提到滥用的风险,表示计划在未来几周先向“一小部分受信任的合作伙伴”推出对GPT-4o新音频功能的支持。
GPT-4o正式上线:免费用户可用,ChatGPT界面大升级
从即日起,GPT-4o在ChatGPT的免费版中可用,并且对于OpenAI的高级ChatGPT Plus和Team计划的订阅用户,具有“5倍更高”的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到GPT-3.5,这是一个更旧且功能较弱的模型。)由GPT-4o支持的改进的ChatGPT语音体验将在接下来的一个月左右的时间内,为Plus用户进行alpha测试,并提供面向企业的选项。

另外,OpenAI宣布,他们正在Web上发布一个经过重新设计的ChatGPT用户界面,拥有一个新的“更具对话性”的主屏幕和消息布局,并且为macOS发布了ChatGPT的桌面版本,让用户可以通过键盘快捷键提问或拍摄并讨论屏幕截图。从今天开始,ChatGPT Plus用户将首先获得应用程序,并且Windows版本将于今年晚些时候推出。
此外,OpenAI的GPT Store,这是一个基于其AI模型构建的第三方聊天机器人的库和创建工具,现在对ChatGPT的免费版用户可用。免费用户可以利用以前被设置为付费的ChatGPT功能,例如记忆功能,使ChatGPT能够“记住”未来交互的偏好,上传文件和照片,并搜索网络以获取及时问题的答案。
OpenAI公司CEO Sam Altman 在X社交平台表示:“新的语音和视频模式是我使用过的最好的计算机界面。它感觉像是电影中的人工智能;而且令我感到有些惊讶的是,这是真实存在的。达到人类级别的响应时间和表达能力是一个巨大的改变。与计算机交谈从来没有让我觉得真正自然,我可以看到一个令人兴奋的未来,在那里我们能够使用计算机做比以往任何时候都更多的事情。”

本文链接:https://qh-news.com/chatgpt/33.html

GPT-4o人机交互取得进步GPT-40亮相后科技股不所动GPT-4o第一波反馈来了GPT-40免费GPT-40评测

相关文章