Loading...

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

一句话概述:o3 在深度推理及工具使用方面表现突出,适合复杂任务;而 GPT-4.1 的超长上下文和精确的指令执行则更适合 API 开发,o4-mini 则是日常任务中的“性价比之选”。

如果你最近在关注 AI 相关消息,可能会被层出不穷的新模型搞得眼花缭乱。

尤其是以“命名黑洞”著称的 OpenAI,其命名规则显得相当随意。

即便是 AI 领域的资深团队,在面对同时发布的 o3、o4-mini、GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 时,也会感到疑惑。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

为了应对这一困扰,来自 Every 和 DataCamp 的团队经过反复测试和模型切换,尝试了多种提示词,得出以下结论:

  • o3:OpenAI 的最新旗舰模型,专为复杂推理和工具调用而设计,是最具深度思考能力的模型。

  • o4-mini:效率引擎——快速、廉价,对数学、视觉推理及成本敏感的任务表现卓越。尽管不是顶尖模型,但凭借其高效性,完全可以处理一般任务。

  • GPT-4.1:专为 API 设计的主力模型——精确的指令执行和优秀的长上下文记忆。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

接下来,来看这三款模型的新特性、各自专长以及它们在 Every 团队工作流中的实际表现。

o3——OpenAI 最强推理模型

o3 是 OpenAI 最新的前沿模型,旨在提升其在编码、数学、科学和视觉感知等复杂任务中的推理应对能力。

它是首个具备自主工具调用能力的推理模型,能够使用搜索、Python、图像生成及处理工具来完成任务。

凭借这项能力,它在解决现实问题的高级基准测试中表现出色,而之前的模型常常难以胜任。

OpenAI 特别强调相较于 o1,o3 的显著提升,并将其定义为迄今为止功能最强、适用性最广的模型。

o3 不仅像 GPT-4o 能使用工具、分析图像——它还能够将这些工具和图像融入推理过程中。

o3 的优势

・工具调用

o3 懂得如何使用单一工具,也能将多个工具串联起来,并在关键时刻调整策略。

例如,当你上传一张月度销售图表时,o3 可以先用 OCR 提取数据,然后用 Python 计算同比增长,随后检索行业基准提供背景——一气呵成。

在单条回复中,它最多可调用 600 次工具,边执行边自我优化;如遇问题也能迅速调整方向,堪比一位自驱动的分析师,随身携带瑞士军刀,清楚什么时候使用哪一把。

・视觉推理

o3 在图像解析上具备真实语境的深度理解。其他模型可能只说“这是一幅描绘女性的画”,而 o3 会放大视角,读取画家的签名,查找画作的展示博物馆,并为你讲述艺术流派的历史。

o3 的技术创新

其显著的性能提升绝非偶然。OpenAI 团队通过多个突破,取得了如此优越的表现:

・扩展强化学习

OpenAI 发现,通过在强化学习阶段增加算力投入,模型效果显著提升,这与 GPT 系列在监督预训练阶段的“越算越强”规律相符。但 o3 的优化并非针对“下一个词预测”,而是通过最大化强化学习奖励进行学习,并且通常在工具增强的环境中进行训练。

实际上,OpenAI 将强化学习视为“扩展版的预训练”:训练时间更长,算力需求更大,结果更佳。这使得诸如长期规划和序列推理等能力得以解锁,例如竞技编程和多步数学证明。结合工具调用,性能提升更为显著。

・动态视觉推理

o3 在视觉推理方面同样取得了重大突破。它不仅理解图像,还将图像直接融入推理循环——解释、操作、反复查看等均不成问题。因此,在处理科学图表、数学示意图,甚至排定日程的任务中表现突出。

核心方法是:在整个推理过程中始终保留原始图像。

与传统“生成文本描述后就丢弃图像”的方法不同,o3 可以借助工具随时放大、旋转、审视图像的任意区域,使得推理更加灵活,并且能够处理更为复杂的视觉输入,例如模糊的白板、手绘草图或会议日程照片。

例如,OpenAI 让 o3 解读一张低清晰度的演出排期照片,并规划一份每场活动之间留出 10 分钟休息的行程——既要解析视觉布局,又需实时考虑约束条件。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

例如,给 o1 一幅粗糙的草图,问“这会绘制哪种分形?”——o1 答错,而 o3 却能准确识别为“龙形曲线”。

虽然问题简单,但结果却令人惊喜,因为我们并未提供太多提示。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

・更高的成本效率

更令人意外的是,o3 具备更高的性价比:在相同推理成本下,获得了更优的表现。这或许归功于架构优化,提高了 Token 吞吐量并降低了延迟。

自 Deepseek-R1 以 ChatGPT 仅几分之一的成本获取高性能以来,成本一直是热门话题,而 o3 的表现显然进一步提升了业界的期望。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

o4-mini——小巧而强大

o4-mini 是 OpenAI o 系列推理模型的新成员。

它针对速度、低成本以及工具增强推理能力进行了优化,提供 200,000 Token 的上下文窗口,并可输出最多 100,000 个 Token,性能达到与 o3、o1 相当的水平。

在工具层面,o4-mini 支持 Python 执行、网页浏览和图像输入,并可与 OpenAI 的标准接口(包括 Chat Completions 和 Responses)连接。支持流式输出、函数调用和结构化输出,但暂时不支持微调和嵌入(Embeddings)。

o4-mini 兼顾了“量”和“质”:面对普通用户的每日调用上限为 150 次,而 o3 的上限为每周 50 次;在数学、编程及高视觉负荷任务上,它以更快的速度和更低的成本,达到接近 o3 的表现。

虽然 o3 依然是 OpenAI 最强的推理模型,但 o4-mini 可以在不到十分之一的成本中获取 o3 的大部分性能。

o4-mini 的优势

・小巧但功能强大

需要分析大量数据或者汇总杂乱无章的研究表格?o4-mini 轻松应对——提炼洞见、编写结构化查询语言(SQL)、检索数据并将结果呈现为交互式图表。

o3 可能需要十几步推理并付出不菲的 token 成本,而 o4-mini 却能直接提供简洁合理的答案。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

・功能全面,计算成本更低

o4-mini 提供了与 o3 同样层次的完整工具箱,包括 Python、网页浏览、图像分析和生成等。

在生成分析报告时,它可以一次性完成:提取 CSV,使用 Python 清洗和作图,上网查询行业宏观数据进行对比,最后输出 Markdown 报告;整个过程无需承受 o3 的计算开销。

o4-mini 与 o4-mini-high

打开 ChatGPT 应用,你会发现有 o4-mini 和 o4-mini-high 两个选择。

顾名思义,o4-mini-high 是通过投入更多的推理算力来以获得更好的性能。

这意味着,相比于 o4-mini,o4-mini-high:

  • 会在内部花费更多时间处理每个提示词;

  • 通常能生成更高质量的输出,尤其在多步任务方面;

  • 但响应速度较慢,并可能消耗更多的 Token。

如果你更关注速度,o4-mini 或许更适合。如果任务需要复杂推理(尤其是涉及代码或视觉输入)、更多上下文信息,或对精度要求很高,那么 o4-mini-high 更可能给出更好的结果。

实测表现

接下来,将对 o4-mini 的性能进行数学和编码场景的测试。

・数学

首先,给它一道看似简单但常常难倒语言模型的计算题。

目的并非测试它的基础算术能力,而是观察它如何应对解题:逐步推导,还是使用类似计算器的工具。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

第一次回答错误。于是,直接提醒它使用计算器。

第二次虽然算对了,但仍有两个问题:

  • 它的答案标示为“约等于”,但这道减法题根本无需估算。

  • 从推理过程来看,它并没有真正调用计算器,尽管输出中写着“计算器显示”,与实际计算方式不符。更甚者,它还网络搜索,而这道基础题完全不需要。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

随后又给了它一道更具挑战性的数学题,这一次表现显著改善。

模型反应迅速,利用一小段 Python 脚本便解出答案,并能在思维链中直接展示代码。将代码作为推理过程的一部分公开,确实非常实用。

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

・生成 p5.js 游戏

在这个测试中,选择了算力更高的 o4-mini-high。

提示词:制作一款引人入胜的无尽跑酷游戏,关键操作说明显示在屏幕上。p5.js 场景,但不需要 HTML。我喜欢像素风的恐龙和有趣的背景。

第一次生成的结果:

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

有些地方我想调整,于是再次进行提示:

  • 画一只更像样的恐龙——那东西一点也不像恐龙。

  • 让玩家按下任意键再开始游戏——不要一启动就自动开始;同时确保所有操作说明仍在屏幕上。

  • 游戏结束后,让玩家可以重新尝试。

第二次生成的结果:

选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

结果比之前好多了,但这只“恐龙”看起来依然像一台老式电影摄像机。

GPT-4.1——为精准而生,不为“氛围”服务

目前,GPT-4.1 仅通过 API 向开发者开放,目标是毫不妥协地执行细致入微的指令。

它没有 4.5 等前辈那种“梦幻”气质,而是更加结构化、可靠且一致。可以视其为 OpenAI 面向特定开发任务所打造的高负荷“劳模”,而非发散创意的灵感来源。

GPT-4.1 的优势

・遵循复杂指令

GPT-4.1 处理任务的能力就像经验丰富的领航员。

例如,如果你正在开发一个食谱生成器,并将所有要求写入一个提示词——以 Markdown 输出、避免特定话题、按照指定顺序列出烹饪步骤并附上钠含量等关键指标。

旧版模型可能会漏掉步骤或打乱顺序,而 4.1 会严格遵循你的路线,无论这个过程多么复杂。

这带来了两个显著的好处:编写提示词所用的时间更短,处理模型输出的时间也相应缩短。

・惊人的记忆能力

上下文窗口从 128,000 个 token 扩展到 1,000,000 个 token,超过 GPT-4o 八倍。

你仅需一次性设定语气或结构,它便能在多轮对话中持续遵循,无需每次重新设置。

这使得许多实际场景变得可行:可以一次性处理完整日志、为代码仓库建立索引、顺畅进行多文档法律流程,或分析长篇内容,整个过程中无需分块或摘要。

・结构化输出

GPT-4.1 像是那位在自驾游中只需有清晰路线的朋友。只要提供明确的行程,它就能快速而精准地执行。

然而,如果给它比较“氛围”的提示词,例如“能否让这个食谱 App 像步入一家温馨的酒吧?”,它可能会想要直接回家。

GPT‑4.1、GPT-4.1 mini 和 GPT-4.1 nano

如果你在编码、指令遵循以及长上下文任务中追求最佳表现,选择 GPT-4.1。它能适应复杂的编码工作流,并能在单条提示词中处理大量文档。

GPT-4.1 mini 是中端选项,延迟和成本更低,但几乎具备与完整版相同的能力。在多项基准测试(包括指令遵循和图像推理)中,能与 GPT-4o 不分伯仲,甚至领先。

GPT-4.1 nano 是系列中体积最小、速度最快、成本最低的模型(0.1 美元 / 百万 Token),适用于自动补全、分类以及从长文档中提取信息等任务。虽然它在推理和规划能力上不及更大的模型,但对某些任务来说,这已足够。

与完整版的 GPT-4.1 一样,mini 和 nano 都支持 100 万 Token 的上下文窗口。

对比竞品的表现

• GPT-4.1 vs Claude 3.7 Sonnet

根据测试,在代码的优雅与结构性方面,Claude 3.7 Sonnet 仍是首选,尤其在整体风格一致性与用户界面表现上。

然而,只要提示词清晰且具体,4.1 在执行指令的能力上已经大幅缩小了差距。

• o4-mini vs GPT-3.5

目前的观察显示,o4-mini 正逐渐成为开发者在有限预算下寻求速度、可靠性与视觉处理能力的“平价优选”。而 2022 年 11 月发布的 GPT-3.5,如今似乎显得有些“过时”。

参考资料:

  • https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini

  • https://www.datacamp.com/blog/o4-mini

  • https://www.datacamp.com/blog/o3-openai

  • https://www.datacamp.com/blog/gpt-4-1

本文来自微信公众号:新智元(ID:AI_era)

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...