抢先体验 ChatGPT 最新功能 | 登陆即可使用 多模态绘画高级对话模式, 点击查看详情 !

claude·

Claude 发布 3.7模型

Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型

image

Anthropic于2025年2月25日深夜正式推出革命性AI模型——Claude 3.7 Sonnet。在官方博文中,Anthropic称,Claude 3.7 Sonnet是Anthropic迄今为止最智能的模型,也是市场上首个混合推理模型。

作为该系列首款混合推理模型,其突破性架构实现了"即时响应"与"可扩展深度思考"的有机统一。在亚马逊的战略支持下,这款全新AI不仅以两倍于前代旗舰模型Claude 3 Opus的运算速度著称,更在编码领域展现出碾压级优势:在SWE-bench专业测试中,其验证准确率从旧版的33.4%跃升至49%,成功解决64%的复杂编程问题,全面超越GPT-4o、Gemini-1.5 Pro等主流竞品。

该模型的混合推理模式开创性地融合了两种认知维度:当用户启用"扩展思考"模式时,系统可自动生成完整的思维链。例如在解决蒙提霍尔博弈论难题时,模型不仅能在52秒内得出准确结论,还会详细展示概率计算、逻辑推导的全过程。这种动态认知切换能力,使其既能满足实时交互需求,又可胜任需要多步推理的复杂任务。

在技术实现层面,Claude 3.7 Sonnet引入了突破性的"计算机应用"功能。通过API接口,开发者可指令模型像人类一样操作计算机:包括屏幕识别、光标控制、按钮点击、文本输入等完整交互流程。Anthropic团队演示了该模型自动完成网站开发的全过程——从Chrome浏览器导航、文件修改、服务器启动到终端错误修复均自主完成,展现了接近人类开发者的工作流处理能力。

Claude 3.7能力

根据SWE Bench测试数据显示,Claude 3.7在代码能力方面大幅度超过了DeepSeek-R1、OpenAI的o1、o3模型,MMMLU、Math500等同样表现出色。此外,Anthropic还发布了一个专用于代码Agent Claude Code。

最关键的是,Claude 3.7 Sonnet目前所有人免费可用,目前「扩展思考」模式还没有上线。

在多项基准测试中,「扩展思考」模式加持下的Claude 3.7 Sonnet,在数学、物理、指令执行、编程等刷新SOTA。

相较于上一代Claude 3.5 Sonnet,数学、编码能力更是暴涨10%以上。

除了数学,Claude 3.7 Sonnet(64k extended thinking)几乎完全碾压o3-mini,DeepSeek R1,与Grok 3不相上下。

扩展思考模式

Claude 3.7 Sonnet能够产生几乎即时的响应或逐步展示思考过程的详细步骤,这些步骤对用户是可见的。API用户还可以精细控制模型的思考时间。

在编码和前端网页开发方面,Claude 3.7 Sonnet得到显著提升。

除此之外,他们还推出了一款名为Claude Code的命令行工具,用于智能体编码。它能够一次性完成原本需要45分钟以上手动才能完成的工作。

目前,Claude Code仅作为有限的研究预览版提供,它使开发人员能够直接从他们的终端将大量的工程任务委托给Claude。

扩展思考模式

作为混合推理模型,它有两种思考模式:

近乎实时地反应&扩展地、循序渐进(step-by-step)地思考。

扩展思考模式可以显著帮助Claude 3.7 Sonnet提升推理能力。例如,在解决复杂的数学问题时,模型的准确率显著高于标准思考模式。此外,模型在逻辑推理和复杂分析任务中的表现也得到了显著提升。

这种性能提升不仅体现在模型的最终答案上,还体现在其推理过程的质量上。模型能够生成更详细、更准确的推理步骤,帮助用户更好地理解问题的解决方法。这种透明的推理过程不仅增强了用户对模型输出的信任,还为开发者提供了优化模型的依据。

扩展思考模式的另一个重要特点是其透明性。通过展示推理过程,可为用户提供了更丰富的信息,不仅可以看到模型的最终答案,还可以看到其思考的每一步。这种透明性增强了用户对模型输出的信任,为开发者提供了优化模型的依据。

祝您使用愉快!


资源

特性

Copyright © 2025. All rights reserved.