GPT-4o模型评测

chatgpt2024-05-20 23:10:42413

1.什么是 GPT-4o

当地时间 2024年5月13日 OpenAI 发布了 GPT-4o。GPT-4o（"o"代表"omni"，全部、整体的意思）是 OpenAI 新的旗舰模型，可以实时推理音频、视觉和文本，是迈向更自然的人机交互的一步。

它接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

在 GPT-4o 之前，可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。语音模式是由三个独立模型组成的管道：
（1）使用简单模型将音频转录为文本
（2）使用 GPT-3.5 或 GPT-4 接收文本并输出文本
（3）使用简单模型将该文本转换回音频
这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，在跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。GPT-4o 是第一个结合所有这些模式的模型，同时也正在探索该模型的功能及其局限性。

先看一段 GPT-4o 识别视频场景、语音交互、自然对话的视频（听力太差、翻译可能有误，敬请谅解）：

「视频来自 https://openai.com/index/hello-gpt-4o 」

视频中，GPT-4o 展示了更短的输出时延、更自然的对话（语音语调更像人类）、以及更精确视频场景识别等能力。

有关GPT1-GPT4的模型详解请看：

《我看看GPT-1到GPT-4怎么个事？》

2. 多模态能力演示

官网展示了许多关于多模态的能力，我这里总结一些，如下：

2.1 图文创作
例子1:

例子2:

2.2 风格迁移

例子1：

例子2：

2.3 拟真输出

例子1：

例子2：

2.4 音频理解

2.5 视频理解

3. GPT-4o模型评估

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

3.1 文本评估

3.2 音频 ASR 性能

音频 ASR 性能： GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能（特别是对于数据匮乏的语言）

音频翻译性能： GPT-4o 在语音翻译方面创造了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam： M3Exam 基准是多语言和视觉评估，由来自其他国家标准化测试的多项选择题组成，有时包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。（省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有 5 个或更少。）

3.5 视觉理解评估

视觉理解评估： GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot，其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

4. 总结

GPT-4o 是 OpenAI 新推出的旗舰模型，可以实时推理音频、视觉和文本，具有独特的优势：

增强的上下文感知： GPT-4o 擅长在较长的对话中保持上下文。它可以记住聊天早期的详细信息，并使用该信息提供更准确和相关的响应。这让您感觉更像是在与一个记得对话流程的真人交谈。GPT-4o 生成的响应更流畅、更连贯，使交互感觉更自然，这对于保持自然对话流程很重要的应用程序（例如客户支持或虚拟助理）特别有用。

强大的多模态能力： GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型，接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合输出，能实现更加强大的多模态能力。

优异的模型性能：借助统一的多模态模型，在文本理解、音频性能、音频翻译、视觉理解等多领域都达到领先水平，具备优异的模型性能。

5. 参考

https://openai.com/index/hello-gpt-4o

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL；

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤

本文链接：https://qh-news.com/chatgpt/35.html

chatgpt4.0手机版官网 chatgpt官网地址是多少正规chatgpt写文案官网 chatgpt官网地址是什么手机chatgpt官网入口 chatgpt官网怎么注册不了 chatgpt插件官网 chatgpt官网现在要排队吗 chatgpt官网什么样子 chatgpt官网如何下载