AI大舞台又添戏码，全球首个混合推理模型发布

2025-02-26 09:31

元宇宙阅读实验室

由OpenAI前员工创办的人工智能公司Anthropic 在今日宣布推出全新AI模型Claude 3.7 Sonnet，宣称这是其迄今为止最智能的模型。该模型被称为“混合推理模型”，能够同时提供实时回答和经过深思熟虑的“思考型”答案。用户可以根据需要激活AI模型的“推理”能力，促使Claude 3.7 Sonnet进行短期或长期的“思考”。

与传统的AI聊天机器人需要用户在多个模型选项中进行选择不同，Anthropic旨在简化用户体验，使用户无需为此费心。理想情况下，一个模型就能完成所有工作。Claude 3.7 Sonnet的推出，正是这一理念的体现。

该模型于本周一面向所有用户和开发者推出，但只有付费购买Anthropic高级Claude聊天机器人计划的用户才能访问该模型的推理功能。免费Claude用户将获得标准的、无推理功能的Claude 3.7 Sonnet版本，Anthropic声称其性能优于之前的尖端AI模型Claude 3.5 Sonnet。

在定价方面，Claude 3.7 Sonnet的输入费用为每百万tokens 3美元，输出费用为每百万tokens 15美元。这使得它比OpenAI的o3-mini和DeepSeek的R1更贵，但请记住，o3-mini和R1是严格的推理模型，而非像Claude 3.7 Sonnet这样的混合模型。

Claude 3.7 Sonnet是Anthropic首个能够“推理”的AI模型，随着传统提升AI性能的方法逐渐失效，许多AI实验室已转向这一技术。推理模型在回答问题前会消耗更多时间和计算资源，将问题分解为更小的步骤，这往往能提高最终答案的准确性。推理模型并不一定像人类那样思考或推理，但它们的过程是模仿演绎推理设计的。

最终，Anthropic希望Claude能够自行决定应该“思考”问题多久，而无需用户预先选择控制选项。类似于人类不会为可以立即回答的问题和需要思考的问题，配备两个独立的大脑，Anthropic将推理视为前沿模型应具备的能力之一，以便与其他能力无缝集成，而不是在单独模型中提供。

此外，Anthropic还允许Claude 3.7 Sonnet通过“可见的草稿板”展示其内部规划阶段。用户将看到Claude对大多数提示的完整思考过程，但出于信任和安全考虑，部分内容可能会被编辑。

在实际应用中，Claude 3.7 Sonnet在编码任务中表现出色。在衡量实际编码任务的测试SWE-Bench中，Claude 3.7 Sonnet的准确率为62.3%，而OpenAI的o3-mini模型得分为49.3%。在另一项测试TAU-Bench中，该测试旨在衡量AI模型在零售环境中与模拟用户和外部API互动的能力，Claude 3.7 Sonnet得分为81.2%，而OpenAI的o1模型得分为73.5%。

此外，Claude 3.7 Sonnet将比其前代模型更少拒绝回答问题，声称该模型能够更细致地区分有害和良性的提示。与Claude 3.5 Sonnet相比，它将不必要的拒绝减少了45%。此时正值其他一些AI实验室正在重新考虑限制其AI聊天机器人回答的方法。

除了Claude 3.7 Sonnet，Anthropic还发布了一款名为Claude Code的智能编码工具。该工具以研究预览版形式推出，允许开发者直接从终端通过Claude运行特定任务。在一次演示中，Anthropic员工展示了Claude Code如何通过简单命令（如“解释此项目结构”）分析编码项目。开发者可以在命令行中使用通俗英语修改代码库。Claude Code会在进行更改时描述其编辑内容，甚至测试项目中的错误或将其推送到GitHub仓库。

Claude 3.7 Sonnet的发布，标志着Anthropic在AI领域的又一重要进展。该模型的混合推理能力和出色的编码性能，展示了Anthropic在推动AI技术发展方面的持续努力。随着AI技术的不断进步，未来可能会有更多类似的创新出现，进一步推动人工智能在各个领域的应用和发展。

声明：凡注明为其它来源的由光网号的作者撰写，观点仅代表作者本人，不代表平台立场。

AI大模型人工智能 AI

喜欢就给个赏吧