拉斯维加斯的 CES 主舞台上,黄仁勋依旧穿着那件熟悉到可以单独 IPO 的皮衣登场。和去年相比,舞台上的氛围明显不同。2025 年他谈的是愿景,是“物理 AI 时代”的序章,是自动驾驶、机器人和智能体的想象力边界;而 2026 年,他几乎不再浪费时间描绘未来,而是反复用一个词把所有内容串起来:推理。
如果说过去十年 AI 的核心问题是“能不能生成”,那今天真正的问题已经变成了“能不能长期思考,而且算得起”。模型规模增长开始放缓,算力价格却仍然昂贵,推理成本成为新的天花板。
黄仁勋给出的判断很直接,AI 不会因为模型不再变大而停下,相反,决定胜负的,是谁能让模型在使用阶段多想一会儿,同时不把账单炸穿。这也是 Rubin 架构被摆到舞台中央的根本原因。
Rubin 并不是一颗简单意义上的新 GPU,而是一整套为推理时代重新设计的系统级计算平台。从 Vera CPU 到 Rubin GPU,从 NVLink 6 到 Spectrum-X 网络,再到专门为上下文而生的存储层,英伟达第一次如此系统性地回应一个问题:当 AI 从一次性回答变成需要反复推理、长期运行的智能体时,数据中心该长什么样。

黄仁勋用一个很接地气的比喻解释 Test-time Scaling。过去我们让 AI 变聪明,靠的是训练阶段疯狂堆算力,相当于让学生不停刷题;现在的变化是,就算课本不再加厚,只要考试时允许它多想几分钟,成绩也会明显提高。但前提是,这几分钟不能贵得离谱。Rubin 要解决的,就是让“多想一会儿”这件事在经济上成立。
从公开的数据看,Rubin GPU 在关键指标上对 Blackwell 形成了跨代差距。推理性能提升到 50 PFLOPS,训练性能达到 35 PFLOPS,HBM4 带宽提升到 22 TB 每秒,NVLink 单卡互连带宽翻倍。这些数字单独看已经很夸张,但真正的意义在于,它们让单颗 GPU 能承担过去多卡才能完成的任务,推理阶段对 GPU 数量的依赖被实质性削弱。换句话说,算力不只是更强了,而是被用得更精细。
Vera CPU 的角色也很耐人寻味。它并不是传统意义上的通用 CPU,而是一个为多步骤推理和数据调度而生的系统协调者。88 个自研核心,1.5 TB 系统内存,通过 NVLink-C2C 与 GPU 形成一致性内存访问。它存在的意义只有一个,让 AI 在“想得久”的过程中,不被数据搬运和调度拖慢。这种设计本身就透露出英伟达的判断:未来的瓶颈,不在算术逻辑,而在系统协同。
真正拉开差距的,是 NVLink 6 和整套互连设计。当 72 块 GPU 被当成一颗“超级 GPU”来用,推理时的中间结果可以在机架内高速流转,很多原本必须拆分的任务,第一次可以在一个逻辑单元内完成。英伟达给出的说法是,推理成本可以下降到原来的七分之一。这个数字不一定在所有场景都成立,但方向非常清晰,推理正在从“昂贵奢侈品”向“可规模化服务”转变。
不过,算力不是唯一的问题。真正让推理跑不动的,往往是上下文。多轮对话、多步骤决策、多个智能体协同,会产生海量 KV Cache。放在 GPU 内存里太贵,放在传统存储里又太慢。英伟达这次首次完整亮相的推理上下文内存存储平台,本质上是在 GPU 和存储之间,硬生生插入了一个新的“记忆层”。
这不是某一颗芯片的功劳,而是一整套系统协同的结果。BlueField-4 负责在硬件层面管理上下文,Spectrum-X 网络提供 RDMA 级别的高速访问,DOCA 和 Dynamo 等软件负责调度和吞吐优化。最终的效果是,在特定场景下,token 处理能力提升五倍,同时能效更高。翻译成白话,就是 AI 终于可以一边思考,一边记事,而不是边想边忘。
当单机架不再是极限,DGX SuperPOD 的升级就显得顺理成章。576 个 GPU 被标准化地拼成一个可长期运行的系统,对企业和云厂商来说,这不是炫技,而是一种确定性。你不需要自己研究怎么连卡、怎么布网、怎么管存储,买来就能跑推理型 AI。这种“交钥匙工程”,是英伟达真正的护城河。
值得注意的是,在机架之间,英伟达第一次把共封装光学推到台前。把光模块直接封在交换芯片旁边,降低功耗和延迟,看似是工程细节,实际上是在为更大规模的数据中心铺路。AI 系统正在变得像电网一样,越大越稳定,但前提是每一层都不能掉链子。
如果说硬件是地基,那英伟达在软件和模型上的动作,则是在往上盖楼。开源模型生态的扩展,几乎覆盖了从数据到代码的所有环节。Nemotron、Cosmos、GR00T、Alpamayo,这些名字背后不是单点模型,而是一整套可以直接拿去用的开发资源。对企业来说,意义很现实,不是每个人都有时间从零训练一个完整系统。
尤其值得玩味的是物理 AI 的推进方式。面对真实世界数据又贵又慢的问题,英伟达选择正面拥抱合成数据。Cosmos 的定位不是“生成好看的视频”,而是理解物理世界如何运转,并据此进行推理和预测。这也是为什么黄仁勋敢说,物理 AI 的 ChatGPT 时刻正在逼近。
自动驾驶领域的 Alpamayo,更像是一个信号。它第一次把推理能力放进驾驶决策本身,从“看到什么就做什么”,升级为“理解为什么要这么做”。英伟达宣布 DRIVE 系统进入量产,搭载在奔驰 CLA 上路,意味着这套理念已经不再停留在实验室。
机器人舞台上的那一排“钢铁观众”,某种程度上是整场发布会最直观的隐喻。不同形态、不同用途,但底层逻辑一致。它们需要长期运行,需要记忆,需要推理,也需要一个能负担得起的系统。
CES 2026,英伟达真正交出的不是一颗芯片,而是一种判断。AI 的下一阶段,不是谁的模型更大,而是谁能把“长期思考”这件事,变成一种基础设施能力。黄仁勋已经把这台“芯片怪兽”放在台上,接下来,市场只剩一个问题,能不能跟得上。