OpenAI o3·

OpenAI o3 是什么

OpenAI o3 模型是继 o1 之后的新一代推理模型,包括 o3 和 o3-mini 两个版本。

image

OpenAI o3 是什么

OpenAI o3 模型是继 o1 之后的新一代推理模型,包括 o3 和 o3-mini 两个版本。o3 在某些条件下接近于通用人工智能(AGI),在 ARC-AGI 基准测试中得分高达 87.5%,远超人类平均水平。它在数学和编程任务中表现出色,在 2024 年美国数学邀请赛(AIME)中得分 96.7%,在 Codeforces 评级中达到 2727 分。o3 能够自我事实核查,通过 “私人思维链” 进行推理,提高答案的准确性。o3 是首个使用 “审议对齐” 技术训练的模型,以符合安全原则。目前,o3 模型尚未广泛可用,但安全研究人员可以注册预览 o3-mini 模型。o3 mini 版将在 1 月底推出,之后不久推出 o3 完整版。

OpenAI o3 的主要功能

  • 顶级数学推理能力:o3 在复杂数学问题上表现出色,例如在美国 AIME 数学竞赛中达到了 96.7% 的准确率,展现出顶级数学家的解题能力。
  • 卓越编程性能:在 CodeForces 编程竞赛平台上获得 2727 的 ELO 分数,超越顶尖程序员水平,并支持复杂任务的代码生成与执行,自动优化代码逻辑,提升开发效率。
  • 科学问题解决能力:在 GPQA 科学基准测试中,o3 达到 87.7% 的准确率,大幅超越人类专家平均水平(70%),适用于科研工作中的数据分析与问题建模。
  • 透明推理路径:提供清晰的推理过程,能够展示每一步的逻辑思路和中间结论,增强决策的可信度和可解释性。
  • 高效多任务处理:支持长上下文输入,能处理复杂的多步指令,适合编程、科学和多模态问题解决场景。
  • 轻量版 o3Mini:提供低成本、高效的计算能力,支持函数调用、结构化输出等功能,适合预算有限的应用场景。
  • 强大的多模态支持:能处理文本与图像的混合输入,为多模态推理场景提供强大支持,例如视觉推理与跨模态问题解决。

OpenAI o3 的技术原理

  • 深度学习引导的程序搜索:o3 模型的核心机制似乎是在标记空间内进行自然语言程序的搜索和执行。这种方式可能与 AlphaZero 的蒙特卡洛树搜索方法相似,通过评估模型引导搜索过程。在测试时,模型会在可能的思维链空间中搜索,这些思维链描述了解决任务所需的步骤。
  • 思维链搜索与执行:o3 模型通过生成和执行自己的程序来克服传统大语言模型在处理新问题时的限制。程序本身(思维链)成为知识重组的具体体现。
  • 多模态支持:o3 模型能处理文本与图像的混合输入,为多模态推理场景提供强大支持,例如视觉推理与跨模态问题解决。
  • 监督微调(SFT)与强化学习(RL):OpenAI 使用了监督微调和人类反馈强化学习来进行安全训练。支持模型从示例中学习理想行为,通过强化学习训练模型更有效地使用其思维链。
  • 审议对齐(Deliberative Alignment):是一种新的安全评估方法,直接教授模型安全规范的新范式。通过推理用户的输入意图,大幅提升了模型对潜在不安全请求的识别能力。
  • 自适应思考时间:o3 模型支持低、中、高三种推理时间模式。用户可根据任务复杂度灵活调整模型的思考时间,以实现最佳性能。

OpenAI o3 的基准测试

  • ARC-AGI 测试中:o3 在高推理能力设置下取得了 87.5% 的分数,在低推理能力设置下的分数也高达 o1 的 3 倍
  • 在编程竞赛 Codeforces 中:o1 的分数是 1891,而 o3 在高推理设置下可达到 2727 的分数,低推理设置的分数也超过 o1。
  • **AIME 2024:**在数学基准测试 AIME 2024 中,o3 的准确率达到 96.7%
  • **EpochAI Frontier Math:**o3 还在陶哲轩等 60 余位全球数学家共同推出的号称业界最强数学基准的 EpochAI Frontier Math 中创下新纪录,分数达到 25.2。而其他模型都没有超过 2.0。
测试类型o3 表现人类专家水平备注
ARC-AGI 测试87.5%85%低推理能力设置下的分数也高达 o1 的 3 倍
CodeForces Elo 评分2727超越 99.99% 的人类程序员,o1 的分数是 1891
AIME 2024 数学竞赛96.7%几乎满分
GPQA Diamond 测试87.7%70%显著超过人类专家平均水平
EpochAI Frontier Math25.2%其他模型未超过 2.0%

OpenAI o3 与 o1 的区别

  • 性能提升:根据 SWE-bench Verified 代码生成评估基准,o3 的准确度得分为 71.7,超过了 o1 的 48.9 和 o1 preview 的 41.3。在 2024 年 AIME 数学竞赛题目测试中,o3 的准确度得分为 96.7,超过了 o1 和 o1 preview 的 83.3 和 56.7。
  • 成本:o3 在低计算量模式下完成每个 ARC-AGI 任务需要 17~20 美元,高计算量模式下完成每个任务需要数千美元。
  • 安全和对齐:OpenAI 正在使用一种新技术 “审议对齐”(deliberative alignment),来使 o3 等模型符合其安全原则。o3 被训练成在做出反应之前先 “思考”,可以对任务进行推理并提前规划,在较长时间内执行一系列动作,帮助找出解决方案。

如何使用 OpenAI o3

OpenAI 开始向安全研究人员开放 o3 的访问权限。申请截止日期是 **1 月 10 日。**可访问官方链接进行申请。

OpenAI o3 的应用场景

  • 数学推理与教育:o3 模型在复杂数学问题上表现出色,o3 非常适合用于教育领域,帮助学生解决数学问题,提供解题思路和方法。
  • 编程与软件开发:支持复杂任务的代码生成与执行,自动优化代码逻辑,提升开发效率。o3 可以作为编程助手,帮助开发者进行代码编写、调试和优化。
  • 科学研究与数据分析:o3 适用于科研工作中的数据分析与问题建模,帮助科学家处理复杂的科学问题。
  • 多模态问题解决:o3 模型能处理文本与图像的混合输入,为多模态推理场景提供强大支持,例如视觉推理与跨模态问题解决。o3 可以在需要结合视觉信息和文本信息的场景中发挥作用,如图像识别和描述生成。
  • 透明推理路径:o3 提供清晰的推理过程,能展示每一步的逻辑思路和中间结论,增强决策的可信度和可解释性。需要解释和验证推理过程的应用场景非常有用,如法律分析、金融风险评估等。
  • 高效多任务处理:o3 支持长上下文输入,能处理复杂的多步指令,适合编程、科学和多模态问题解决场景。

资源

特性

Copyright © 2025. All rights reserved.