claude·Mar 1, 2025

Claude 发布 3.7模型

Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型，也是市场上首个混合推理模型

Anthropic于2025年2月25日深夜正式推出革命性AI模型——Claude 3.7 Sonnet。在官方博文中，Anthropic称，Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型，也是市场上首个混合推理模型。

作为该系列首款混合推理模型，其突破性架构实现了"即时响应"与"可扩展深度思考"的有机统一。在亚马逊的战略支持下，这款全新AI不仅以两倍于前代旗舰模型Claude 3 Opus的运算速度著称，更在编码领域展现出碾压级优势：在SWE-bench专业测试中，其验证准确率从旧版的33.4%跃升至49%，成功解决64%的复杂编程问题，全面超越GPT-4o、Gemini-1.5 Pro等主流竞品。

该模型的混合推理模式开创性地融合了两种认知维度：当用户启用"扩展思考"模式时，系统可自动生成完整的思维链。例如在解决蒙提霍尔博弈论难题时，模型不仅能在52秒内得出准确结论，还会详细展示概率计算、逻辑推导的全过程。这种动态认知切换能力，使其既能满足实时交互需求，又可胜任需要多步推理的复杂任务。

在技术实现层面，Claude 3.7 Sonnet引入了突破性的"计算机应用"功能。通过API接口，开发者可指令模型像人类一样操作计算机：包括屏幕识别、光标控制、按钮点击、文本输入等完整交互流程。Anthropic团队演示了该模型自动完成网站开发的全过程——从Chrome浏览器导航、文件修改、服务器启动到终端错误修复均自主完成，展现了接近人类开发者的工作流处理能力。

Claude 3.7能力

根据SWE Bench测试数据显示，Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型，MMMLU、Math500等同样表现出色。此外，Anthropic还发布了一个专用于代码Agent Claude Code。

最关键的是，Claude 3.7 Sonnet目前所有人免费可用，目前「扩展思考」模式还没有上线。

在多项基准测试中，「扩展思考」模式加持下的Claude 3.7 Sonnet，在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet，数学、编码能力更是暴涨10%以上。

除了数学，Claude 3.7 Sonnet（64k extended thinking）几乎完全碾压o3-mini，DeepSeek R1，与Grok 3不相上下。

扩展思考模式

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤，这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面，Claude 3.7 Sonnet得到显著提升。

除此之外，他们还推出了一款名为Claude Code的命令行工具，用于智能体编码。它能够一次性完成原本需要45分钟以上手动才能完成的工作。

目前，Claude Code仅作为有限的研究预览版提供，它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

扩展思考模式

作为混合推理模型，它有两种思考模式：

近乎实时地反应&扩展地、循序渐进（step-by-step）地思考。

扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如，在解决复杂的数学问题时，模型的准确率显著高于标准思考模式。此外，模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。

这种性能提升不仅体现在模型的最终答案上，还体现在其推理过程的质量上。模型能够生成更详细、更准确的推理步骤，帮助用户更好地理解问题的解决方法。这种透明的推理过程不仅增强了用户对模型输出的信任，还为开发者提供了优化模型的依据。

扩展思考模式的另一个重要特点是其透明性。通过展示推理过程，可为用户提供了更丰富的信息，不仅可以看到模型的最终答案，还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任，为开发者提供了优化模型的依据。

祝您使用愉快！

新增导出助手

可导出Markdown, PNG, JSON多种格式类型

xAI开发的Grok-3模型正式发布

马斯克旗下人工智能初创公司xAI开发的Grok-3模型正式发布。此前，马斯克将Grok-3描述为「地球上最聪明的AI」。