GPT4o-Mini:成本优化后性能如何?

chatgpt2024-07-23 18:16:35246

OpenAI发布了经过成本优化的GPT4o-Mini,成本大幅降低。本文旨在对GPT4o-Mini的性能进行深度评测,并与原版GPT4o以及国产高性价比模型Deepseek Coder进行对比。

一、成本分析

● GPT4o:输入33元/百万tokens,输出100元/百万tokens

● GPT4o-Mini:输入1元/百万tokens,输出4元/百万tokens

● Deepseek Coder:输入1元/百万tokens,输出2元/百万tokens

从以上数据来看,GPT4o-Mini和Deepseek Coder在成本上具备显著优势,尤其是前者已近乎达到每百万tokens1元的低价位,由此可预见其潜在市场价值。

二、  性能测试

我们基于以下三项主要任务对三个模型进行测试:

1.  指令遵从能力

2.  长上下文理解及推理

3.  复杂代码实现能力

● 测试项目1:原生指令遵从能力

○ GPT4o-Mini: 100%成功

○ GPT4o: 80%成功

○ deepseek coder: 100%成功

测试样本为各10次。GPT4o-Mini在此项测试中表现出色,展示了优秀的指令理解和执行能力。DeepSeek Coder表现同样稳定。GPT4o倒是有两次并没有按照格式回答。

● 测试项目2:长上下文数据理解及推理

● GPT4o-Mini: 100%成功

● GPT4o: 80%成功

● deepseek coder: 100%成功

测试样本为各5次。GPT4o-Mini再次展现了稳定的性能,能够有效处理长文本并进行准确的数据分析,同样的还有DeepSeek Coder。GPT4o出现了一次字库导入错误导致代码运行失败。

● 测试项目3:代码实现难度

● GPT4o-Mini: 10%成功,50%效果一般,40%失败

● GPT4o: 80%成功,10%效果一般,10%失败

● deepseek coder: 100%成功

在这项测试中,GPT4o-Mini表现相对较弱,显示出在复杂创意任务上仍有提升空间。而三次下来DeepSeek Coder竟然都很稳定。

总结

综上所述,GPT4o-Mini在某些情况下相较于原版GPT4o表现出更为严谨的回应和稳定性,但在创造性和复杂问题解决能力方面稍显不足。Deepseek Coder则在各项指标中均显示出强劲表现。GPT4o的不稳定也可能是算力分配问题所致。总之从评测GPT4o-mini确实是GPT4级别的模型,不亚于大部分国产旗舰模型,GPT4o-Mini和Deepseek Coder均为驱动智能体和工作流的高性价比选择。

本文链接:https://qh-news.com/chatgpt/70.html

chatgpt官网怎样打开chatgpt shortcut官网可以用的chatgpt官网chatgpt官网用什么浏览器打开chatgpt app安卓版官网怎样进chatgpt官网chatgpt官网中文版官网chatgpt官网中文版手机版openai chatgpt官网怎么使用官网原生chatgpt

相关文章