谁是最强编程大模型?从六大方向横向对比Canvas、o1、ChatGPT4o、Claude3.5 Sonnet

nidongde2024-10-10 10:18:1595

用过Claude的小伙伴,应该都知道,Claude相对于ChatGPT4o的优势就在于编程能力、写作能力和可视化能力。半个月前o1草莓模型的发布,加强了ChatGPT在编程和写作方面的能力,小编写亲测过,o1-mini的编程能力全方位碾压Claude。

Canvas是一个全新的交互界面,旨在帮助用户与ChatGPT在写作和编程方面进行更紧密的协作。它不再局限于简单的对话框,而是提供了一个可以与AI“并肩作战”的工作空间。

说白了,就是要360°无死角的干死Claude。

在Canvas界面中,你可以:

  1. 高亮标注重点内容,让AI更懂你的需求
  2. 直接编辑AI生成的文字或代码
  3. 使用快捷菜单进行批量操作
  4. 一键撤销恢复之前版本

OpenAI研究主管Karina Nguyen表示,Canvas代表了她心目中“终极AGI界面”的雏形——一个能随人类偏好不断进化、自我变形,并创造全新人机交互方式的“空白画布”。

Canvas有哪些强大功能?

Canvas的强大功能包括对写作和编程任务的全面支持,使其成为用户进行各类创作的高效工具。它包含了一些强大而灵活的功能,使得写作和编程更加方便和高效。

写作助手的升级

Canvas为写作任务提供了五种便捷的功能:

  1. 编辑建议:Canvas可以为用户提供实时的反馈和改进建议,帮助用户优化文章的质量。
  2. 调整长度:无论是需要简化文本还是扩展内容,只需点击一下即可调整文章的长度。
  3. 阅读水平调节:从幼儿园水平到研究生水平,Canvas可根据需要调整文本的阅读复杂度,帮助不同受众更好地理解内容。
  4. 最终润色:包括语法、清晰度和一致性的全面检查,使文章达到出版级别的标准。
  5. 添加表情符号:为文章增添情感的表情符号,使内容更加生动,增加与读者的互动感。

编程功能的提升

Canvas在编程任务方面也引入了五个高效的快捷功能:

  1. 代码审查:系统自动提供代码改进的建议,以优化代码质量和性能。
  2. 添加日志语句:在代码中插入调试信息(如print语句),便于追踪代码执行过程。
  3. 生成注释:自动生成代码注释,帮助开发者和团队更好地理解代码。
  4. 修复错误:检测代码中的错误并重写有问题的部分,从而有效修复bug。
  5. 编程语言转换:支持多种语言(包括JS、TS、Python、Java、C++、PHP等)之间的代码转换,帮助开发者轻松跨语言开发。


下面,我们分六项(代码能力、代码优化能力、解读代码能力、测试用例及说明能力、转码能力、添加注释能力)横线对比一下Canvas、ChatGPT4o、Claude3.5 Sonnet、o1-preview、o1-mini,看看孰强孰弱。

都是代码AI实测,文章较长,想直接看结论的,可以直接跳到文末~

round 1:代码能力

Prompt:请根据下面描述,给出解题思路,通过Java代码解答此题,关键代码添加注释,并根据示例中的输入输出进行代码测试,代码如果有错误,请重新修改代码

Canvas

Canvas给出了解题思路、可修改的Java代码、代码解释、测试用例。

ChatGPT4o

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

o1-preview

o1-preview给出了解题思路、Java代码、代码解释、测试用例、测试说明、注意事项、总结。


o1-mini给出了解题思路、Java代码、代码说明、4个测试用例总结。

验证代码正确率,我们将四个大模型生成的代码Copy到Idea中,通过测试用例测试一下。

测试通过,通过率100%。

代码review:

如下图所示,左侧为ChatGPT4o,右侧为Claude3.5 Sonnet。

肉眼可见,o1-preview代码共86行,o1-mini代码共92行,ChatGPT4o代码共74行,Claude共54行,相差20行。Claude3.5 Sonnet明显更加简洁。

o1-mini号称拥有更强的编程能力,仔细一看,发现o1-mini新增了很多输入输出校验,增强了代码的健壮性。

代码能力小结:
Canvas给出了解题思路、可修改的Java代码、代码解释、测试用例。

ChatGPT4o给出了解题思路、Java代码、代码解释、测试用例。

Claude3.5 Sonnet给出了解题思路、Java代码、代码解释、测试用例,还给出了算法的时间复杂度。

o1-preview给出了解题思路、Java代码、代码解释、测试用例、测试说明、注意事项、总结。

o1-mini给出了解题思路、Java代码、代码说明、4个测试用例总结。

通过review代码,Claude3.5 Sonnet明显更加简洁、o1-mini更加缜密。

代码能力,o1-mini >o1-preview > Canvas > Claude3.5 Sonnet > ChatGPT4o

round 2:代码优化

PS:我们将“通过回溯算法解答猴子吃桃的代码”发给它们,让它们对代码进行优化。

Canvas

Canvas 指出了代码存在3个问题:

  1. 回溯算法效率低下

  2. 不必要的排序

  3. 回溯递增速度存在效率瓶颈

Canvas给出了解决方案、改进方向、可编辑的代码、结论。

ChatGPT4o

ChatGPT4o指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 O(N)
  2. 递归深度限制,可能会导致 StackOverflowError
  3. 不必要的排序
  4. 全局变量使用,不符合编码规范

ChatGPT4o给出了优化后的代码、关键点、下一步改进建议。


Claude3.5 Sonnet

Claude指出了代码存在4个问题:

  1. 效率低,递归回溯,时间复杂度为 O(N)
  2. 不必要的排序
  3. 全局变量使用,不符合编码规范
  4. 代码没有处理输入异常的情况

Claude给出了优化建议、优化后的代码、优化说明、小总结。

o1-preview
o1-preview指出了代码存在4个问题:

  1. 效率低下

  2. 缺少输入校验

  3. 不必要的排序操作

  4. 全局变量的使用

o1-preview给出了优化建议、优化后的代码、代码说明、测试示例、优化效果、总结。


o1-mini
o1-mini指出了代码存在6个问题:

  1. 递归深度过大

  2. 效率低下

  3. 不必要的排序

  4. 缺乏输入验证

  5. 静态变量的使用

  6. 错误的测试用例预期


o1-mini给出了优化建议、优化后的代码、代码说明、4个测试示例、总结。


代码优化小结:

Canvas指出了3项问题,ChatGPT4o、Claude、o1-preview都指出了4项问题,但o1-mini指出了6个问题。

给出了给出了优化建议、优化后的代码、代码说明、测试示例、优化效果、总结。

代码优化能力,o1-mini > o1-preview > Canvas  >  Claude3.5 Sonnet = ChatGPT4o

round 3:解读代码

Prompt:请给出代码的解题思路

Canvas

Canvas给出了具体的解题思路、代码解读、测试用例


ChatGPT4o

ChatGPT4o给出了具体的解题思路、优化后的代码、代码解析、建议的下一步改进

Claude3.5 Sonnet

Claude3.5 Sonnet给出了优化后代码的解题思路:

  1. 问题分析
  2. 输入处理
  3. 初始验证
  4. 二分查找最小速度
  5. 验证函数
  6. 返回结果
  7. 分析代码优势

Claude3.5并没有再次输出代码,其实这一点是好评的,因为上面已经输出过了,完全没必要再次输出。

o1-preview
o1-preview给出了具体步骤、整体思想、代码解释、示例运行、可能的问题和优化、优化后的解法思路、总结。


o1-mini

o1-mini给出了问题分析、代码解读、主要步骤解析、存在的问题、优化建议、优化后的解题思路、优化后的示例代码、优化后的代码说明、5个示例测试、总结。



解读代码小结:

ChatGPT4o看似给的东西比较多,Claude3.5只是返回了解题思路,Canvas就是可在线编辑的ChatGPT4o。

o1-mini给的东西更多,牛逼plus,真顶。

解读代码能力,o1-mini > o1-preview > Canvas > Claude3.5 Sonnet > ChatGPT4o

round 4:测试用例及说明

Prompt:给出3个测试用例和说明

Canvas

Canvas给出了三个测试用例,涵盖了不同的场景、可在线编辑的完整代码及测试用例、测试用例结果

ChatGPT4o

ChatGPT4o给出了三个测试用例,涵盖了不同的场景、完整代码及测试用例、测试用例结果

Claude3.5 Sonnet

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明。

这些测试用例涵盖了几种不同的情况:

  1. 正常情况,需要计算的最小速度
  2. 需要较高速度才能完成的情况
  3. 无法完成任务的情况(时间不足)

o1-preview

o1-preview给出了4个测试用例和总结。


o1-mini 


o1-mini 直接给出了5个测试用例和说明,还给出了小总结。


  1. 正常情况

  2. 边界情况

  3. 无效输入





测试用例及说明能力小结:

ChatGPT4o给出的东西很多,又输出一遍完整代码,但是回答内容有些重复。

Canvas就是可在线编辑的ChatGPT4o。

Claude3.5 Sonnet给出了3个测试用例,并对每个用例进行详细说明,还指出了3个测试用例覆盖了3种不同的情况。

o1-preview给出了4个测试用例和总结。

o1-mini 直接给出了5个测试用例和说明,还给出了小总结。

测试用例及说明能力,o1-mini > o1-preview > Canvas >  Claude3.5 Sonnet > ChatGPT4o

round 5:Java转Python

Prompt:将代码转为Python语言

Canvas

Canvas给出了可在线编辑的Python代码、关键代码解析、测试用例

ChatGPT4o

ChatGPT4o给出了Python代码、关键代码解析、测试用例

Claude3.5 Sonnet

Claude3.5给出了Python代码、解题思路、时间复杂度


o1-preview
o1-preview给出了Python代码实现、代码说明、测试示例、注意事项、运行方法

o1-mini
o1-mini给出了解题思路、主要步骤、Python代码实现、代码说明、代码优化点、5个测试示例、结论


转码能力小结:

ChatGPT4o和Claude3.5都给出了Python代码、解题思路、测试用例,测试后,通过率100%。

o1-preview给出了Python代码实现、代码说明、测试示例、注意事项、运行方法。

o1-mini给出了解题思路、主要步骤、Python代码实现、代码说明、代码优化点、5个测试示例、结论。

转码能力,o1-mini > o1-preview >  Canvas > Claude3.5 Sonnet = ChatGPT4o

转码能力,旗鼓相当。

round 6:添加注释

ChatGPT4o

Claude3.5 Sonnet


ChatGPT4o和Claude3.5都为Python代码添加了详细的代码注释,能力堪称顶级。

Canvas、o1-preview和o1-mini给出的代码自带详细的代码注释,不用添加了...

添加注释能力,o1-mini > o1-preview > Canvas> Claude3.5 Sonnet = ChatGPT4o

总结

我们分别从六大方面对比了Canvas、o1-mini、o1-preview 、ChatGPT4o和Claude3.5 Sonnet。

  1. 代码能力,o1-mini > o1-preview > Canvas > Claude3.5 Sonnet > ChatGPT4o

  2. 代码优化能力,o1-mini > o1-preview > Canvas > Claude3.5 Sonnet > ChatGPT4o

  3. 解读代码能力,o1-mini > o1-preview > Canvas > Claude3.5 Sonnet  > ChatGPT4o

  4. 测试用例及说明能力,o1-mini > o1-preview > Canvas >  Claude3.5 Sonnet  > ChatGPT4o

  5. 转码能力,o1-mini > o1-preview > Canvas >  Claude3.5 Sonnet = ChatGPT4o

  6. 添加注释能力,o1-mini > o1-preview >  Canvas > Claude3.5 Sonnet = ChatGPT4o


就今天的测试而言,我们不难看出,在编程方面,o1-mini仍是最强。
Canvas是在ChatGPT4o的基础上,添加了Artifacts可视化在线编辑功能,弥补了ChatGPT4o相较于Claude的不足。
编程能力:
o1-mini > o1-preview > Canvas > Claude3.5 Sonnet > ChatGPT4o

来源:哪吒编程

本文链接:https://qh-news.com/chatgpt/117.html

chatgpt插件官网怎样进chatgpt官网chatgpt官网功能介绍chatgpt官网什么样子chatgpt4.0 官网地址chatgpt官网入口更新了吗中国chatgpt官网chatgpt4.0只有官网才能用吗苹果手机如何登录chatgpt官网chatgpt官网永久免费免登录

相关文章