OpenAI·Jan 1, 2025

OpenAI day12 更新

OpenAI 于 12 月 5 日正式宣布将举行为期 12 天的系列发布活动，期间每天发布一个产品或样品，活动将包括备受期待的 AI 视频生成工具 Sora 和新的推理模型，本文将介绍为期 12 天的发布会每日的发布内容和相关亮点信息。

mountains

Day1：o1 满血版上线，ChatGPT Pro 订阅服务

OpenAI 在第一天的发布会上正式推出了最强推理模型 o1 满血版及其 Pro 版本。模型比之前的 o1-preview 版本更加完备，性能提升了 34%，错误率降低了 34%。支持多模态输入。同时，OpenAI 推出了 ChatGPT Pro 订阅服务，价格为每月 200 美元，提供无限制访问 o1 和专业版 o1。

亮点分析：

01 基础版：适用于日常使用，功能强大、反应迅速。

多模态能力增强：处理文本和图像的能力大幅提升，支持图像内容分析和相关问题解答。
语言理解能力提升：更准确捕捉语言细节和上下文，文本生成、翻译和摘要表现更加流畅自然。
错误率降低：比起预览版，错误率降低了 35%，生成内容更加准确可靠。
响应速度提升：速度提升 50%，减少用户等待时间，带来更流畅的使用体验。

01 Pro 版本：面向对 AI 性能要求更高的专业用户，强大而精确。

深度推理能力：可处理复杂的数学和科学问题，支持多步推理和专业计算，思考时间约 1-3 分钟。
专业领域知识：在科学、数学、编程等领域表现出色，提供专业、准确的解答。
长文本处理能力：支持更长的文本输入和输出，轻松应对长文档处理与内容生成。
自定义能力：提供更多微调选项，用户可根据自身需求进行个性化定制。

Day2：强化微调（ReinforcementFine-Tuning）

OpenAI 在第二天的发布会上，介绍了强化微调技术。这是一种新的模型训练方法，支持用户使用少量的训练数据在特定领域创建专家模型。强化微调通过强化学习算法优化模型的输出，使其更符合用户的预期。强化微调预计要到 2025 年春季才开放给用户。

亮点分析：

少量数据训练： 使用极少的样本就能让模型学习到新的推理方式。
强化学习算法： 根据用户提供的评分机制不断优化模型的输出。
适用于复杂任务： 特别适合需要深入专业知识的领域，如法律、金融、医疗等。

Day3：Sora 正式版登场

在第三天的发布会上，OpenAI 推出了 Sora 正式版和新版本 Sora Turbo。Sora 是一个视频生成工具，可以根据文本描述生成连贯、逼真的视频内容。Sora 支持生成高达 1080p 分辨率、最长 20 秒的视频，支持多种视频比例，提供了多种视频编辑功能。现阶段，Sora 仅面向 ChatGPTPlus 和 Pro 用户开放，Plus 用户每月有 50 条视频生成配额，Pro 用户则高达 5000 条。

亮点分析：

故事板功能： 用户通过时间线指导视频中多个动作，创作复杂视频序列。
多种视频编辑功能： 包括 Remix、Re-cut、Storyboard 等，增强创作的逻辑性和流畅度。
视频混合：支持将两个视频场景合并为一个全新场景，生成具有创意的新内容。
高分辨率和时长支持： 支持生成 1080p 分辨率和最长 20 秒的视频。

Day4：ChatGPT Canvas 全面开放，人 + AI 协作模式启动

第四天的发布会上，OpenAI 宣布 Canvas 功能全面开放。从聊天工具升级为生产力工具，Canvas 支持用户与 ChatGPT 在写作和编程方面进行协作，提供了一个共享画布，用户和 ChatGPT 可以共同编辑文档和代码。

亮点分析：

写作和编程协作： 用户可以与 ChatGPT 共同完成写作和编码项目。
支持 Python 代码运行： Canvas 内置了几乎所有常用的 Python 库，可以在编写代码时与 AI 实时协作。
图片识别： Canvas 支持图片识别，用户可以上传图片并生成相关的文本内容。
Canvas： 提供写作、审稿、编码和图片识别的协作功能。

Day5：OpenAI 与苹果合作，ChatGPT 集成到 Apple Intelligence

第五天的发布会上，OpenAI 宣布 ChatGPT 正式集成到 Apple Intelligence。意味着 iPhone、iPad 和 Mac 用户可以通过 Siri 使用 ChatGPT 的功能。

亮点分析：

Siri 支持： 用户可以通过 Siri 语音命令完成更复杂的任务。
写作工具升级： 苹果的智能写作工具将引入 ChatGPT 能力。
视觉智能能力： 用户可以利用搜索功能快速识别眼前物品。
ChatGPT 集成： 在 iOS，iPadOS，MacOS 生态系统中提供 ChatGPT 的智能支持。

Day6：OpenAI 版「Her」上线，高级语音模型增强

第六天的发布会上，OpenAI 为 ChatGPT 的高级语音模式带来了视频输入和实时屏幕共享功能。使 ChatGPT 能 “看到” 用户和周围环境，基于这些视觉信息来更好地理解用户的指令和问题。高级语音模式使用多模态 4o 模型，可直接输入音频并输出音频，支持语言超过 50 种，面向移动端用户，Plus 和 Pro 订阅用户开放。

亮点分析：

视频输入功能： ChatGPT 的高级语音模式加入了视频输入功能，使其能够 “看到” 用户。
屏幕共享功能： ChatGPT 可以通过屏幕共享功能，帮助用户回复消息、辅助工作和学习等场景。
圣诞老人虚拟角色： 用户可以通过高级语音模式与 “圣诞老人” 进行视频或语音通话。

Day7：ChatGPT 发布 Projects 功能

第七天的发布会上，OpenAI 推出了 Projects 新功能。支持用户将相关资料、文件、聊天记录等信息集中到一个 “Project” 中，支持项目管理与写作、文件与数据管理、个性化定制等场景。整合 Canvas 和 ChatGPT Search，面向 ChatGPTPlus/Pro 用户开放，计划于明年初向企业和教育用户提供。

亮点分析：

项目管理： 用户可以创建项目，上传文件，设定个性化指令。
Canvas 和 ChatGPT Search 集成： Projects 功能整合了 Canvas 和网络搜索能力。
多步骤任务执行： 为未来执行多步骤任务奠定了基础。
Projects： 支持用户上传文件、设置自定义指令、分组聊天和数据等。

Day8：ChatGPT Search 全面升级，免费开放

在第 8 天的发布会上，OpenAI 展示了 ChatGPT Search 最新搜索功能，基于 GPT-4o 模型的微调版本。功能通过与第三方搜索提供商及 ChatGPT 的合作伙伴直接提供的内容相结合，用户能快速并准确地获取所需信息。新增的可搜索信息包括最新体育比分、新闻、股票报价等实时信息。用户可以通过指向相关网络资源的链接获得快速、及时的答案。

亮点分析：

搜索性能提升： 搜索速度更快，移动端体验更好，加入了地图体验。
语音搜索整合： 用户可以通过语音对话获取实时网络信息。
全球免费开放： 搜索功能向全球所有登录用户免费开放。
对话式搜索： ChatGPT 能够保持对话上下文、理解用户意图。

Day9：o1 推理模型开放 API，成本暴降 60%

在第 9 天的发布会上，OpenAI 宣布了 o1 模型正式推出 API，成本降低 60%，可定制升级，新增函数调用，开发者消息和图像分析等功能。是一次重要的技术升级。新模型不仅变得更聪明，还能更快地回应用户需求。实时 API 进行了全面升级，包括引入 WebRTC 支持，降低价格以及更灵活的响应控制。

亮点分析：

o1 模型 API： 正式推出满血版 o1 模型 API，支持功能调用、开发者消息、Structured Outputs 以及视觉识别等功能。
实时 API 升级： 集成简单的 WebRTC 功能，GPT-4o 音频价格下调 60%。
偏好微调： 推出基于直接偏好优化（DPO）算法的偏好微调功能。
多语言 SDK 支持： 开放 Go 和 Java SDK 测试版，支持多种编程语言。
性能提升： o1 模型在多个领域展现出了优秀的表现，如编程能力测试中达到 76.6% 的高分。

Day10：通过电话和 WhatsApp 使用 ChatGPT

在第 10 天的发布会上，OpenAI 介绍了通过电话和 WhatsApp 使用 ChatGPT 的新功能。这一更新意味着用户可以通过最基础的电话功能或 WhatsApp 与最先进的 AI 进行对话，号码是 1-800-CHAT-GPT，或者是 1-800-242-8478。支持智能手机，老人机和座机等设备。极大地降低了使用门槛。

亮点分析：

电话接入： 用户可以通过拨打 1-800-CHAT-GPT 与 ChatGPT 进行语音对话。
WhatsApp 集成： 全球用户可以在 WhatsApp 上给 ChatGPT 发消息，提供服务的模型是 4o-mini。
简单易用： 不需要注册账号，不需要记住密码，只需要像打电话一样简单操作。
跨设备支持： 从最新款的 iPhone 到老式的翻盖机，都能直接和 AI 对话。
多语言支持： ChatGPT 能够提供多语言服务，如教用户用西班牙语交流。

Day11：ChatGPT 与 Mac 应用深度集成

OpenAI 在第 11 天的直播中宣布了 ChatGPT 与 Mac 应用的深度集成，特别在编程和写作方面进行了更新。现在，用户可以通过简单的复制粘贴操作，与 Warp、XCode 等应用协同工作，无需详细交流即可执行任务。此外，ChatGPT 还支持在语音模式下与 Notion、Apple Notes 等应用协同工作。这些新功能已在 Mac 最新版 ChatGPT 应用中推出，而 Windows 用户还需等待。

亮点分析：

桌面应用全新升级：ChatGPT 桌面应用支持与多种应用程序协同工作，包括开发工具和文档编辑工具。通过 ChatGPT 分析 Git 提交数据并生成可视化图表。
实时演示与 Warp 终端、Xcode IDE 的智能协作：展示了 ChatGPT 如何与开发环境无缝协作，为编程任务提供实时支持。在 Xcode 中实现代码自动补全和功能添加。
对 Notion、Apple Notes、Quip 等写作工具的支持：这些功能现已在 Mac 桌面应用上线，Windows 用户需等待。
高级语音交互模式：通过语音模式与 ChatGPT 交谈，提供了更加自然和高效的体验。
搜索辅助功能：确保输出信息的准确性，结合搜索功能来优化写作内容。

Day12：最新一代推理模型 o3 和 o3-mini 发布介绍

OpenAI 发布了其最强推理模型 o3，宣称接近通用人工智能（AGI）。o3 在 ARC-AGI 测试中得分 87.5%，远超 GPT-3 和 GPT-4o。o3 有完整版和 mini 版，mini 版将于 1 月底推出。o3 在编程竞赛 Codeforces 中得分 2727，数学基准测试 AIME 2024 中准确率达 96.7%。OpenAI 将与 ARC-AGI 基金会合作构建下一个基准测试。

亮点分析：

升级数学推理能力：o3 在复杂数学问题上表现出色，在美国 AIME 数学竞赛中达到了 96.7% 的准确率，展现出顶级数学家的解题能力。
卓越编程性能：在 CodeForces 编程竞赛平台上获得 2727 的 ELO 分数，超越顶尖程序员水平。
科学问题解决能力：在 GPQA 科学基准测试中，o3 达到 87.7% 的准确率，超越人类专家平均水平（70%）。
透明推理路径：提供清晰的推理过程，能展示每一步的逻辑思路和中间结论。

GPT-5.5 发布：更快、更聪明的新一代模型

OpenAI 正式推出 GPT-5.5，在推理速度、多模态理解、代码生成和长上下文处理能力上全面超越 GPT-5，并大幅降低延迟。

Sora 是什么

Sora 是由 OpenAI 研发的 AI 视频生成模型，具备将文本描述转化为视频的能力，能够创造出既逼真又富有想象力的视频场景。