ChatGPT·Sep 1, 2025

隆重推出 GPT-5

我们迄今为止最智能、最快捷、最实用的模型，内置先进算法，让专业级智能触手可及。

如何使用 GPT‑5

GPT‑5 现已成为 ChatGPT 的新默认模型，取代了 GPT‑4o、OpenAI o3、OpenAI o4-mini、GPT‑4.1 和 GPT‑4.5，适用于已登录的用户。只需打开 ChatGPT 并输入您的问题；GPT‑5 将自动处理后续操作，并在回复需要时自动应用推理。付费用户仍可通过模型选择器选择“GPT‑5 Thinking”选项，或在提示中输入类似“认真思考这个问题”的指令，以确保在生成回复时使用推理功能。

可用性和访问权限

GPT‑5 现已开始向所有 Plus、Pro、Team 和免费版用户开放，Enterprise 和 Edu 版用户的访问权限将于下周开放。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录中使用 GPT‑5 开始编码。

与 GPT‑4o 类似，GPT‑5 免费用户与付费用户的区别在于使用量。Pro 订阅用户可享受 GPT‑5 的无限访问权限，并可使用 GPT‑5 Pro。Plus 用户可将其作为日常问题的默认模型舒适使用，其使用量显著高于免费用户。Team、Enterprise 和 Edu 版客户也可将其作为日常工作的默认模型舒适使用，其宽松的使用额度使整个组织都能轻松依赖 GPT‑5。对于 ChatGPT 免费版用户，完整推理功能可能需要几天时间才能全面推出。一旦免费用户达到 GPT‑5 的使用限制，他们将过渡到 GPT‑5 mini，这是一个更小、更快且功能强大的模型。

统一的系统

GPT‑5 是一个统一系统，包含一个智能高效的模型，能够回答大多数问题；一个更深入的推理模型（GPT‑5 Thinking），用于解决更复杂的问题；以及一个实时路由器，能够根据对话类型、复杂度、工具需求以及您的明确意图（例如，如果您在提示中说“认真思考这个问题”）快速决定使用哪个模型。路由器会持续基于真实信号进行训练，包括用户切换模型、对回复的偏好率以及测量准确性，并随着时间的推移不断优化。当达到使用限制时，每个模型的精简版本将处理剩余的查询。在不久的将来，我们计划将这些功能整合到一个单一模型中。

一个更智能、更广泛适用的模型

GPT‑5 不仅在基准测试中表现优于前代模型，回答问题也更快，但最重要的是，它在处理现实世界查询时更加实用。我们在减少幻觉、提升指令遵循能力以及减少阿谀奉承方面取得了显著进展，同时在 ChatGPT 最常见的三个应用场景中提升了 GPT‑5 的性能：写作、编程和医疗。

编码

GPT‑5 是我们迄今为止最强大的编码模型。它在复杂的前端生成和调试大型代码库方面表现出显著提升。它能够仅凭一个提示，以直观且富有美感的方式，将创意转化为现实，创建出美观且响应迅速的网站、应用和游戏，展现出对美感的敏锐把握。早期测试者还注意到了其设计选择，对间距、字体和留白等元素有了更深入的理解。点击此处查看 GPT‑5 为开发人员解锁的完整细节。

创意表达与写作

GPT‑5 是我们迄今为止最强大的写作助手，能够帮助您将粗略的想法转化为富有文学深度和节奏感的引人入胜的文字。它能够更可靠地处理涉及结构模糊性的写作，例如维持不押韵的抑扬五步格或自然流畅的自由体诗，将对形式的尊重与表达的清晰度相结合。这些提升的写作能力意味着 ChatGPT 在协助您完成日常任务时表现更佳，例如起草和编辑报告、邮件、备忘录等。GPT‑5 与 GPT‑4o 的写作风格对比见下表。

医疗保健

GPT‑5 是我们迄今为止针对医疗保健相关问题表现最佳的模型，它能帮助用户获取健康知识并更好地维护自身健康权益。该模型在我们今年早些时候基于真实场景和医生定义的标准发布的评估工具 HealthBench⁠ 上，得分显著高于以往任何模型。与之前模型相比，它更像一个积极的思维伙伴，会主动标记潜在问题并提出问题，以提供更具帮助性的答案。该模型现在能够提供更精准、更可靠的回复，能够根据用户的背景信息、知识水平和地理位置进行调整，从而在各种场景下提供更安全、更有帮助的回复。重要的是，ChatGPT 并不能替代医疗专业人员——可以将其视为一个合作伙伴，帮助您理解结果、在与医疗提供者交流时提出正确的问题，并在做出决策时权衡各种选项。

评估

GPT‑5 在各方面都表现得更加智能，这一点在其在学术和人类评估的基准测试中的表现中得到了体现，尤其是在数学、编程、视觉感知和医疗保健领域。它在数学（在 AIME 2025 测试中无需工具即可达到 94.6%）、现实世界编程（在 SWE-bench 验证测试中达到 74.9%，在 Aider-Polyglot 测试中达到 88%）、多模态理解（在 MMMU 测试中达到 84.2%）和医疗保健（在 HealthBench Hard 测试中达到 46.2%）等领域均树立了新的行业标杆——这些提升在实际应用中也得到了体现。凭借 GPT‑5 Pro 的扩展推理能力，该模型还在 GPQA 上创下了新纪录，没有工具情况下得分 88.4%。

构建更强大、更可靠且更具帮助性的模型

对现实世界问题的更准确回答

GPT‑5 出现幻觉的可能性比我们之前的模型低得多。在代表 ChatGPT 生产流量的匿名提示上启用网络搜索后，GPT‑5 的回复中包含事实错误的可能性比GPT‑4o 低约 45%，而在思考过程中，GPT‑5 的回复中包含事实错误的可能性比 OpenAI o3 低约 80%。

我们特别致力于提升模型在处理复杂开放式问题时的可靠性。因此，我们新增了评估指标以对开放式事实准确性进行压力测试。我们测量了 GPT‑5 在处理来自两个公开事实性基准的开放式事实查询提示时的幻觉率：LongFact⁠（在新窗口中打开）（概念和物体）和 FActScore⁠（在新窗口中打开）。在所有这些基准测试中，“GPT‑5 Thinking”显示出幻觉率的显著下降——大约是 o3 的六分之一——这标志着在生成一致准确的长篇内容方面取得了明显的进步。这些基准测试的实施和评分详情可在系统卡中查阅。

更诚实的回复

除了事实准确性得到提升外，具备推理功能的 GPT‑5 还会更诚实地向用户说明其操作和能力——尤其是在任务无法完成、定义不明确或缺少关键工具的情况下。为了在训练中获得高奖励，推理模型可能会学会谎称已成功完成任务，或对不确定的答案表现出过分自信。例如，为了验证这一点，我们从多模态基准 CharXiv 的提示中移除了所有图片，发现 OpenAI o3 在 86.7% 的情况下仍对不存在的图片给出自信的答案，而 GPT‑5 仅为 9%。

在推理过程中，GPT‑5 能更准确地识别任务无法完成的情况，并清晰地传达其局限性。我们评估了在涉及不可能编码任务和缺失多模态资产的设置中欺骗率，并发现具备推理功能的 GPT‑5 在所有情况下都比 o3 的欺骗率更低。在代表实际生产环境中 ChatGPT 流量的庞大对话数据集上，我们已将欺骗率从 o3 的 4.8% 降至 GPT‑5 推理回复的 2.1%。尽管这对于用户而言已是一项显著改进，但仍有更多工作待完成，我们将继续研究以提升模型的事实准确性和诚实度。更多详细信息请参阅系统卡。

更安全、更友好的回复

GPT‑5 在安全性方面取得了重大突破。过去，ChatGPT 主要依赖基于拒绝的安全训练：根据用户的提示，模型应选择服从或拒绝。虽然此类训练对明确恶意的提示效果良好，但面对用户意图不明确，或信息可能被用于良性或恶意用途的情境时，其处理能力会受到限制。拒绝训练在病毒学等双用途领域尤其缺乏灵活性，因为一个无害的请求可以在高层次上安全完成，但如果详细完成，可能会被恶意行为者利用。

对于 GPT‑5，我们引入了一种新的安全训练形式——安全完成——它教模型在可能的情况下提供最有帮助的答案，同时仍保持在安全边界内。有时，这可能意味着仅部分回答用户的问题，或仅在高层次上进行回答。如果模型需要拒绝回答，GPT‑5 经过训练，能够透明地告知用户拒绝的原因，并提供安全替代方案。在受控实验和我们的生产模型中，我们发现这种方法更为细致，能够更好地处理双用途问题，对模糊意图具有更强的鲁棒性，并减少不必要的过度拒绝。如需了解更多关于我们新的安全训练方法，以及方法论、指标和结果的详细信息，

关于 Claude 4 的一些内容

Opus 4 在编程、研究、写作和科学发现方面突破了边界，而 Sonnet 4 则作为 Sonnet 3.7 的即时升级，将前沿性能带入日常应用场景。

OpenAI day12 更新

OpenAI 于 12 月 5 日正式宣布将举行为期 12 天的系列发布活动，期间每天发布一个产品或样品，活动将包括备受期待的 AI 视频生成工具 Sora 和新的推理模型，本文将介绍为期 12 天的发布会每日的发布内容和相关亮点信息。