AI大舞台又添戏码,全球首个混合推理模型发布
由OpenAI前员工创办的人工智能公司Anthropic 在今日宣布推出全新AI模型Claude 3.7 Sonnet,宣称这是其迄今为止最智能的模型。该模型被称为“混合推理模型”,能够同时提供实时回答和经过深思熟虑的“思考型”答案。用户可以根据需要激活AI模型的“推理”能力,促使Claude 3.7 Sonnet进行短期或长期的“思考”。
与传统的AI聊天机器人需要用户在多个模型选项中进行选择不同,Anthropic旨在简化用户体验,使用户无需为此费心。理想情况下,一个模型就能完成所有工作。Claude 3.7 Sonnet的推出,正是这一理念的体现。 该模型于本周一面向所有用户和开发者推出,但只有付费购买Anthropic高级Claude聊天机器人计划的用户才能访问该模型的推理功能。免费Claude用户将获得标准的、无推理功能的Claude 3.7 Sonnet版本,Anthropic声称其性能优于之前的尖端AI模型Claude 3.5 Sonnet。 在定价方面,Claude 3.7 Sonnet的输入费用为每百万tokens 3美元,输出费用为每百万tokens 15美元。这使得它比OpenAI的o3-mini和DeepSeek的R1更贵,但请记住,o3-mini和R1是严格的推理模型,而非像Claude 3.7 Sonnet这样的混合模型。 Claude 3.7 Sonnet是Anthropic首个能够“推理”的AI模型,随着传统提升AI性能的方法逐渐失效,许多AI实验室已转向这一技术。推理模型在回答问题前会消耗更多时间和计算资源,将问题分解为更小的步骤,这往往能提高最终答案的准确性。推理模型并不一定像人类那样思考或推理,但它们的过程是模仿演绎推理设计的。 最终,Anthropic希望Claude能够自行决定应该“思考”问题多久,而无需用户预先选择控制选项。类似于人类不会为可以立即回答的问题和需要思考的问题,配备两个独立的大脑,Anthropic将推理视为前沿模型应具备的能力之一,以便与其他能力无缝集成,而不是在单独模型中提供。 此外,Anthropic还允许Claude 3.7 Sonnet通过“可见的草稿板”展示其内部规划阶段。用户将看到Claude对大多数提示的完整思考过程,但出于信任和安全考虑,部分内容可能会被编辑。 在实际应用中,Claude 3.7 Sonnet在编码任务中表现出色。在衡量实际编码任务的测试SWE-Bench中,Claude 3.7 Sonnet的准确率为62.3%,而OpenAI的o3-mini模型得分为49.3%。在另一项测试TAU-Bench中,该测试旨在衡量AI模型在零售环境中与模拟用户和外部API互动的能力,Claude 3.7 Sonnet得分为81.2%,而OpenAI的o1模型得分为73.5%。 此外,Claude 3.7 Sonnet将比其前代模型更少拒绝回答问题,声称该模型能够更细致地区分有害和良性的提示。与Claude 3.5 Sonnet相比,它将不必要的拒绝减少了45%。此时正值其他一些AI实验室正在重新考虑限制其AI聊天机器人回答的方法。 除了Claude 3.7 Sonnet,Anthropic还发布了一款名为Claude Code的智能编码工具。该工具以研究预览版形式推出,允许开发者直接从终端通过Claude运行特定任务。在一次演示中,Anthropic员工展示了Claude Code如何通过简单命令(如“解释此项目结构”)分析编码项目。开发者可以在命令行中使用通俗英语修改代码库。Claude Code会在进行更改时描述其编辑内容,甚至测试项目中的错误或将其推送到GitHub仓库。 Claude 3.7 Sonnet的发布,标志着Anthropic在AI领域的又一重要进展。该模型的混合推理能力和出色的编码性能,展示了Anthropic在推动AI技术发展方面的持续努力。随着AI技术的不断进步,未来可能会有更多类似的创新出现,进一步推动人工智能在各个领域的应用和发展。









