unset
unsetunset
引言
openai
官方是这样一句话介绍 gpt4o mini
的:
our most cost-efficient small model.
我们最具成本效益的小型模型。
正如其名字:mini
,gpt4o
是一个小模型,而这个小模型强调的是特性是费用经济。
价格
输入: 1000000token/$0.015
输出: 1000000token/$0.060
相较于 GPT-3.5 Turbo
便宜了 60%
,从输入输出的价格来看,这相当优惠了。
计算一下:
极其保守估算,假如一次 api
调用消耗 700 toekn输入
和 300 token输出
(实际情况要比 1000
少很多)。
那么,$0.075
足够调用 1428次提问 + 3333次回答
了,这对个人开发者也没有任何的前期压力。
自 2022 年推出的 text-davinci-003
以来,到现在的 GPT-4o mini
, 每个 token
的成本下降了 99%
。
这也非常符合 openai
的宣传理念:
更广泛的让世界使用人工智能。
评测结果
在推理任务、数学任务、编码能力、多模态推理上的评测结果:
从图中可以看到,无论哪个方面,gpt4o mini
的准确率都是仅次于 gpt 4o
的。
在文本智能和多模态推理方面的学术基准测试中都超过了 GPT-3.5 Turbo
和其他小型模型。
文本智能
openai
宣称:
学术基准测试
在学术基准测试中 gpt4o mini
超过了 gpt-3.5 Turbo
和其他众多小型模型,并且支持与 GPT-4o
相同的语言范围。
函数调用&长上下文
在函数调用方面表现出强大的性能,这使开发人员能够构建获取数据或使用外部系统执行操作的应用程序,并且与 GPT-3.5 Turbo
相比,它提高了长上下文性能。
延迟性能
从文本处理常用的语言理解和外部工具调用来看,不仅提升了长上下文,并且由于模型更小,所以会有更加强悍的性能,在调用延迟上也会大大优于 gpt3.5 turbo.
推理任务
GPT-4o mini
在涉及文本和视觉的推理任务方面优于其他小型模型,在文本智能和推理基准 MMLU 上的得分:
gpt4o mini
准确度得分为82.0%
Gemini Flash
准确度得分为77.9%
Claude Haiku
准确度得分为73.8%
数学和编码能力
GPT-4o mini
在数学推理和编码任务方面表现出色,优于市场上以前的小型模型。
在 MGSM 上,衡量数学推理的得分:
GPT-4o mini
准确度得分为87.0%
Gemini Flash
准确度得分为75.5%
Claude Haiku
准确度得分为71.7%
在 HumanEval 上,衡量编码性能的得分:
GPT-4o mini
准确度得分为87.2%
Gemini Flash
准确度得分为71.5%
Claude Haiku
准确度得分为75.9%
多模态推理
GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现。
GPT-4o mini
准确度得分为59.4%
Gemini Flash
准确度得分为56.1%
Claude Haiku
准确度得分为50.2%
这样看 gpt4o mini
完全可以取代 gpt3.5 turbo
,我们不难猜测将来很有可能会下架gpt3.5 turbo
来降低整体的模型部署成本。
安全方面
openai
声称:在预训练中,过滤掉了不希望模型从中学习或输出的信息。
例如:
仇恨言论 成人内容 记录有个人信息的网站 垃圾邮件
在训练后,使用强化学习与人类反馈 (RLHF
) 等技术将模型的行为与制定的策略保持一致,以提高模型响应的准确性和可靠性。
使用研究的新技术提高了 GPT-4o mini
的安全性。API 应用了指令层次结构(在新窗口中打开)方法,有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。
GPT4o mini 使用
Free
、Plus
和 Team
用户将会开始访问 GPT-4o mini
,替换掉现有的 GPT-3.5。企业用户也可以使用,这符合 openai
的使命,即让所有人都能享受人工智能的好处。
本文链接:https://qh-news.com/chatgpt/72.html
手机无法登录chatgpt官网chatgpt4.0官网宣传片chatgpt官网怎么使用教程chatgpt官网页面什么样chatgpt官网百度手机怎么登录chatgpt官网国内怎么登陆chatgpt官网chatgpt40官网中国版chatgpt写文案官网chatgpt官网中文版怎么安装