
OpenAI o3 模型是继 o1 之后的新一代推理模型,包括 o3 和 o3-mini 两个版本。o3 在某些条件下接近于通用人工智能(AGI),在 ARC-AGI 基准测试中得分高达 87.5%,远超人类平均水平。它在数学和编程任务中表现出色,在 2024 年美国数学邀请赛(AIME)中得分 96.7%,在 Codeforces 评级中达到 2727 分。o3 能够自我事实核查,通过 “私人思维链” 进行推理,提高答案的准确性。o3 是首个使用 “审议对齐” 技术训练的模型,以符合安全原则。目前,o3 模型尚未广泛可用,但安全研究人员可以注册预览 o3-mini 模型。o3 mini 版将在 1 月底推出,之后不久推出 o3 完整版。
| 测试类型 | o3 表现 | 人类专家水平 | 备注 |
|---|---|---|---|
| ARC-AGI 测试 | 87.5% | 85% | 低推理能力设置下的分数也高达 o1 的 3 倍 |
| CodeForces Elo 评分 | 2727 | – | 超越 99.99% 的人类程序员,o1 的分数是 1891 |
| AIME 2024 数学竞赛 | 96.7% | – | 几乎满分 |
| GPQA Diamond 测试 | 87.7% | 70% | 显著超过人类专家平均水平 |
| EpochAI Frontier Math | 25.2% | – | 其他模型未超过 2.0% |
OpenAI 开始向安全研究人员开放 o3 的访问权限。申请截止日期是 **1 月 10 日。**可访问官方链接进行申请。