人工智能行业现状报告2024
人工智能(AI)是一个科学和工程的多学科领域,其目标是创造智能机器。我们相信,在我们日益数字化、数据驱动的世界中,人工智能将成为技术进步的力量倍增器。这是因为今天我们周围的一切,从文化到消费品,都是智慧的产物。 近日,Air Street Capital发布了《人工智能行业现状报告2024》,以下是对该报告的部分摘录。
01 第一部分: 研究 在这一年的大部分时间里,基准测试和社区排行榜都指出了 GPT-4 和“其他最好的”之间的鸿沟。然 而,Claude 3.5 Sonnet、Gemini 1.5 和 Grok 2 几乎消除了这一差距,因为模型性能现在开始趋同。在正式的基准测试和基于 vibes 的分析中,资金最充足的前沿实验室能够在单个能力上获得较低的分 数。 现在,模型一直是非常能干的编码者,擅长事实回忆和数学,但不太擅 长开放式问题回答和多模态问题解决。许多变化非常小,现在很可能是实施差异的产物。例如,GPT-4o 在 MMLU 上的表现优于克劳德 3.5 Sonnet,但在 MMLU-Pro 上的表现明显不如 它,MMLU-Pro 是一个旨在更具挑战性的基准测试。考虑到体系结构之间相对微妙的技术差异和预训练数据中可能的严重重 叠,模型构建者现在越来越多地 不得不在新功能和产品特性上竞争。 OpenAI 团队很早就清楚地看到了推理计算的潜力,OpenAI o1 在其他实验室探索该技术的论文发表后几周内就 出现了。通过将计算从训练前和训练后转移到推理,o1 以思维链(COT)的方式一步一步地通过复杂的提示进行推 理,采用 RL 来强化 COT 及其使用的策略。这开启了解决多层数学、科学和编码问题的可能性,由于下一 个令牌预测的内在限制,LLM 在历史上一直在努力解决这些问题。 OpenAI 报告对推理密集型基准测试的显著改进 与 4o 的对比,AIME 2024(竞赛数学)上最明显,得分高达 83.83 比 13.4。然而,这种能力的代价很高:100 万个输入令牌 o1-preview 的价格为 15 美元,而 100 万个输出令牌将花费你 60 美 元。这使得它比 GPT-4o 贵 3-4 倍。OpenAI 在其 API 文档中明确表示,它不是对等的 4o 替代品,也不 是需要 一贯的快速响应、图像输入或功能调用。 02 第二节: 工业 随着对其硬件的需求不断增长,以支持要求苛刻的 gen AI 工作负载,每个主要实验室都依赖英伟达的硬 件。其市值在 6 月份达到 3 万亿美元,是第三家达到这一里程碑的美国公司(紧随微软和苹果之后)。随着 在 Q2 的盈利大幅增长,它的地位看起来一如既往地无懈可击。 NVIDIA 已经预订了其新的 Blackwell 系列 GPU 的大量预售,并正在为政府做出重大贡献。新的 Blackwell B200 GPU 和 GB200 Superchip 有望显著提升 H100 fame 的 Hopper 架构的性 能。NVIDIA 声称它可以比 H100 降低 25 倍的成本和能耗。 作为英伟达力量的标志,每个主要人工智 能实验室的首席执行官都在新闻稿中提供了支持性的引用。虽然 Blackwell 架构因制造问题而推迟,但该公司 仍有信心在年底前从其获得数十亿美元的收入。英伟达的创始人兼首席执行官黄仁勋正在扩大宣 传,概述该公司对主权人工智能的愿景。他认为每个政府都需要建立自己的 LLM 来保护国家遗 产。你永远猜不到他认为谁的硬件最适合这项任务… AMD 和 Intel 已经开始投资他们的软件生态系统,而 AMD 已经使用 ROCm(其 CUDA 竞争对手)向开源社区进行了 大力宣传。然而,他们还没有开发出 NVIDIA 网络解决方案组合的令人信服的替代品。AMD 希望其 49 亿美元 收购服务器制造商 ZT 系统公司的计划将改变这一点。与此同时,英特尔的硬件销售出现下滑。除了监管干 预、研究范式的改变或供应限制,英伟达的地位似乎无懈可击。 我们查看了自 2016 年以来投资于人工智能芯片挑战者的 60 亿美元,并询问如果投资者以当天的价格购 买等量的英伟达股票会发生什么。答案是灰绿色的:这 60 亿美元相当于今天 1200 亿美元的英伟达股票 (20 倍!)与其初创竞争者的 310 亿美元(5 倍)相比。 少数直言不讳的分析师和评论员对此并不信服。他们指出 GPU 稀缺性的下降,目前只有少数公司从人工智 能产品中产生可靠的收入,以及即使是大型科技公司的基础设施建设也不太可能大到足以证明该公司当前 的估值。市场目前忽略了这些声音,似乎更倾向于同意特斯拉早期投资者詹姆斯·安德森的观点,即该公 司在十年内可能价值“两位数万亿”。 03 第三节: 政治 在 2023 年 7 月获得大实验室的自愿承诺后,白宫决定使它们具有约束力,乔·拜登于当年 10 月签署了关于 前沿模型监管的行政命令。第 14110 号行政命令主要针对政府机构。措施包括授权制定网络安全标准,要求联邦机构公布人 工智能使用政策,指导各机构解决与人工智能相关的关键基础设施风险,以及委托进行劳动力市 场研究。 最值得注意的是,如果模型在训练中使用的计算能力超过 10^26 FLOPS(略高于 GPT-4 和 Gemini Ultra),EO 要求实验室在公开部 署前通知联邦政府并共享安全测试的结果。它还对致力于将人工智能用于生物合成的公司提出了额外的要 求。行政命令的致命缺点是,它们可以被一笔勾销。共和党在即将 到来的总统选举中承诺要做到这一点。 随着两党围绕更广泛的联邦人工智能监管达成共识的前景渺茫,各州正在寻求自己的人工智能法律,最著名 的是加利福尼亚州的 SB 1047。到目前为止,法案往往集中在人工智能使用的披露,某些高风险用例的报告,以及消费者选择退出。 例如,科罗拉多州的州立法机关纳入了对高风险系统的报告要求,并建立了算法歧视风险的报告机制。然而,最全面和最有争议的是加利福尼亚州的 SB 1047。由存在主义赞助 人工智能安全中心,该法案为基础模型创建了一个安全和责任机制。该法案的原始草案吓坏了行业,因为它采用了一种非常规的方法来确定范围内的模型、新的报告、合规性和执行,以及一个监督前沿模型的政府机构。 在科技公司、风险投资公司和著名的州民主党人的反对下,该法案被显著修改,上述有争议的条款被删 除。虽然 Anthropic 和 Elon Musk 支持修改后的版本,但 OpenAI、Meta 和一个代表大型技术的贸易组织 仍然反对。加文·纽瑟姆州长否决了该法案,认为该法案有可能给“公众一种虚假的安全感”,同时“限制了推动 有利于公共利益的进步的创新”。 3 月,欧洲议会通过了大赦国际法案,此前法国和德国发起了一场旨在削弱某些条款的激烈运动。然而,关 于实施的问题仍然没有答案。随着该法案的通过,欧洲现在是世界上第一个采用全面人工智能监管框架的集团。执法将分阶段展 开,2025 年 2 月将禁止“不可接受的风险”(如欺骗、社会评分)。法国和德国成功实现了对基础模型法规的分级改革,一套基 本规则适用于所有模型,其他法规适用于在敏感环境中部署 的模型。全面禁止面部识别现在已经被淡化,允许执法部门使用。虽然行业对该法律感到担忧,但数月的咨询和大量的二级立 法意味着行业仍有时间制定实施细则,如果 它是建设性的。 04 第 4 节: 安全 从美国国会听证会和世界巡回宣传(存在)人工智能安全议程的日子开始,领先的前沿模型公司正在加 速向消费者分发他们的人工智能产品。 去年,实验室经常是关键风险讨论的积极参与者。当它在 OpenAI 升级为企业和商业争斗时,一方显然占据了上 风。2023 年 11 月 17 日,萨姆·奥特曼被非盈利组织的董事罢免了 OpenAI 首席执行官的职务。虽然完整 的情况仍不得而知,但奥尔特曼的批评者提到了所谓的保密文化和对安全问题的意见分歧。 在员工的反抗和 OpenAI 的主要支持者微软的干预下,奥特曼被复 职,董事会被替换。超级结盟研究员简·雷科前往 Anthropic,而 联合创始人伊利亚·苏茨基弗(Ilya Sutskever)离开苹果,与前苹 果人工智能负责人丹尼尔·格罗斯(Daniel Gross)和前 OpenAI 工 程师丹尼尔·利维(Daniel Levy)一起创办了 Safe Superintelligence Inc . 在 OpenAI o1 发布后不久,有报道称 OpenAI 计划取消非专业控制并 授予 Altman 股权,许多人宣布离职,其中最引人注目的是首席技术 官 Mira Murati、首席研究员 Bob McGrew 和研究副总裁(培训 后)Barret 佐 夫。 继 2023 年加强人工智能安全讨论后,英国于 11 月组织了一次人工智能安全峰会,将政府和行业聚集在布莱 奇利公园,标志着一个更大进程的开始。首届人工智能安全峰会产生了《布莱奇利宣言》,美国、英国、欧盟、中国和其他国家承诺合作识别 安全挑战并引入基于风险的政策。此前,作为广岛进程的一部分,G7 国家在 10 月份也做出了类似承 诺。 随后,2024 年 5 月在首尔举行了类似主题的峰会,欧盟、美国、英国、澳大利亚、加拿大、德国、法 国、意大利、日本、韩国和新加坡同意开发可互操作的治理框架。有证据表明,并非每个国家都平等地参与了这一进程。例如,法国热衷于将讨论从安全转移开来,将峰 会巡回赛定为“人工智能行动峰会”,重点是实现人工智能的好处。此外,这项工作仍然是高层次的,没有约束力。是否更有动力还有待观察 政府将能够保持这一势头。