价格卷王降临:OpenAI 发布最具性价比模型 GPT-4o mini,百万 tokens 输入仅需 15 美分

chatgpt2024-07-19 10:09:01127

刚刚,OpenAI 发布了 GPT-4o-mini 模型,关键信息:

  • 价格:每百万输入令牌15美分,每百万输出令牌60美分;

  • 性能:MMLU得分为82%,在LMSYS排行榜上的聊天偏好中表现优于GPT-4;

  • 多模态:目前支持文本和视觉输入,未来将支持文本、图像、视频和音频的输入和输出;

  • 模型安全:首次使用新的安全策略——指令层次结构(instruction hierarchy),确保 AI 优先遵守系统指令。

以下是 OpenAI 的模型发布介绍。

最具性价比的模型

OpenAI 致力于让智能尽可能广泛地普及。今天,我们宣布推出 GPT-4o mini,这是我们最具性价比的小模型。我们认为,GPT-4o mini 将通过大幅降低智能的成本,显著扩展 AI 应用的范围。GPT-4o mini 在 MMLU 测试中得分为 82%,目前在 LMSYS 排行榜上的聊天偏好测试中表现优于 GPT-4。其定价为每百万输入 tokens 15 美分和每百万输出 tokens 60 美分,比之前的前沿模型便宜一个数量级,比 GPT-3.5 Turbo 便宜超过 60%。

GPT-4o mini 以其低成本和低延迟支持广泛的任务,例如串联或并行多个模型调用的应用程序(例如调用多个 API),向模型传递大量上下文(例如完整的代码库或对话历史),或通过快速、实时的文本响应与客户互动(例如客户支持聊天机器人)。

今天,GPT-4o mini 在 API 中支持文本和视觉输入,未来将支持文本、图像、视频和音频输入和输出。该模型具有 128K tokens 的上下文窗口,并具有截至 2023 年 10 月的知识。得益于与 GPT-4o 共享的改进分词器,处理非英语文本现在更加成本有效。

一个具有卓越文本智能和多模态推理的小模型

GPT-4o mini 在学术基准测试中,在文本智能和多模态推理方面超越了 GPT-3.5 Turbo 和其他小模型,并支持与 GPT-4o 相同的语言范围。它在函数调用中也表现出色,这可以使开发人员构建能够与外部系统获取数据或执行操作的应用程序,并且在长上下文性能方面优于 GPT-3.5 Turbo。

GPT-4o mini 已在多个关键基准测试中进行了评估。

推理任务:GPT-4o mini 在涉及文本和视觉的推理任务上比其他小模型表现更好,在文本智能和推理基准测试 MMLU 上得分为 82.0%,相比之下,Gemini Flash 得分为 77.9%,Claude Haiku 得分为 73.8%。

数学和编程能力:GPT-4o mini 在数学推理和编程任务上表现出色,超过了市场上之前的小模型。在数学推理测试 MGSM 中,GPT-4o mini 得分为 87.0%,而 Gemini Flash 得分为 75.5%,Claude Haiku 得分为 71.7%。在测量编程性能的 HumanEval 测试中,GPT-4o mini 得分为 87.2%,而 Gemini Flash 得分为 71.5%,Claude Haiku 得分为 75.9%。

多模态推理:GPT-4o mini 在多模态推理评估 MMMU 中也表现出色,得分为 59.4%,相比之下,Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。

在模型开发过程中,我们与一些值得信赖的合作伙伴合作,以更好地了解 GPT-4o mini 的使用场景和限制。我们与像 Ramp 和 Superhuman 这样的公司合作,他们发现 GPT-4o mini 在从收据文件中提取结构化数据或在提供了线程历史的情况下生成高质量电子邮件回复等任务上,比 GPT-3.5 Turbo 表现得更好。

内置安全措施

安全性从一开始就内置于我们的模型中,并在开发过程中的每一步都得到加强。在初期训练过程中,我们会过滤掉我们不希望模型学习或输出的信息,例如仇恨言论、成人内容、主要聚合个人信息的网站和垃圾邮件。在后期训练中,我们使用人类反馈的强化学习(RLHF)等技术使模型的行为符合我们的政策,以提高模型响应的准确性和可靠性。

GPT-4o mini 具有与 GPT-4o 相同的内置安全措施,我们根据我们的准备框架,使用自动和人工评估仔细评估这些措施,并符合我们的自愿承诺。超过 70 名在社会心理学和虚假信息等领域的外部专家测试了 GPT-4o,以识别潜在风险,我们已经解决了这些问题,并计划在即将发布的 GPT-4o 系统卡和准备评分卡中分享详细信息。这些专家评估的见解有助于提高 GPT-4o 和 GPT-4o mini 的安全性。

基于这些学习成果,我们的团队还使用从研究中获得的新技术来提高 GPT-4o mini 的安全性。API 中的 GPT-4o mini 是第一个应用我们的指令层次结构方法的模型,该方法有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使模型的响应更加可靠,并有助于在大规模应用中更安全地使用。

我们将继续监控 GPT-4o mini 的使用情况,并在识别新风险时改进模型的安全性。

可用性和定价

GPT-4o mini 现已在 Assistants API、Chat Completions API 和 Batch API 中作为文本和视觉模型提供。开发者支付每百万输入 tokens (标记) 15 美分和每百万输出 tokens 60 美分(大致相当于一本标准书中的 2500 页)。我们计划在未来几天内推出 GPT-4o mini 的微调功能。

在 ChatGPT 中,免费用户、Plus 用户和团队用户将从今天起可以使用 GPT-4o mini 代替 GPT-3.5 Turbo。企业用户也将在下周开始使用,符合我们让 AI 益处普及的使命。

接下来是什么

在过去的几年中,我们见证了 AI 智能的显著进步和成本的显著降低。例如,自 2022 年推出的能力较低的模型 text-davinci-003 以来,GPT-4o mini 的每个 token 成本已下降了 99%。我们致力于继续推动降低成本,同时增强模型能力的轨迹。

我们设想未来模型将无缝集成到每个应用程序和每个网站中。GPT-4o mini 正在为开发者更高效、更经济地构建和扩展强大的 AI 应用程序铺平道路。AI 的未来正在变得更加普及、可靠,并嵌入到我们的日常数字体验中,我们很高兴继续引领潮流。


本文链接:https://qh-news.com/chatgpt/56.html

chatgpt官网怎样打开chatgpt官网写论文chatgpt官网汉化chatgpt官网登录页面手机怎么访问chatgpt官网chatgpt官网翻译chatgpt官网百度chatgpt教学官网chatgpt官网默认的是3.5吗chatgpt官网哪里访问

相关文章