AI 算力新基建白皮书:液冷、光互连与专用芯片的崛起
前言:
在 2025 年,每一个走进新建数据中心的人,都会被眼前的景象震惊:听不到风扇的轰鸣,看不见密密麻麻的网线。
取而代之的,是浸泡在氟化液中静静沸腾的服务器,以及在机架间闪烁的激光信号。随着大模型参数量的指数级增长,算力瓶颈已经从“计算”转移到了“互连”和“散热”。本文将深入物理层,拆解支撑 AI 2.0 时代的硬件底座。
第一章 互连墙(Interconnect Wall):光进铜退的必然
在 H100 时代,我们还在用铜缆(DAC)连接机柜内的 GPU。但在万亿参数模型并行训练的今天,铜缆的物理极限已被击穿。
1.1 硅光子(Silicon Photonics)的爆发
2025 年,CPO(Co-Packaged Optics,共封装光学) 技术终于成熟量产。
- 原理:以前,光模块是插在交换机面板上的,离芯片有几十厘米远,电信号在传输中损耗巨大。CPO 技术直接把光引擎(Optical Engine)封装在 GPU 芯片的基板上。
- 收益:
- 功耗降低 50%:信号不用再长途跋涉。
- 带宽密度提升:单芯片 IO 带宽突破 51.2 Tbps,彻底解决了“计算快、传输慢”的内存墙问题。
1.2 全光交换网络(All-Optical Switching)
Google 的 Jupiter 数据中心架构展示了未来的方向:OCS(光路开关)。
- 传统的电交换机需要把光信号转成电,处理完再转回光(O-E-O),延迟高且费电。
- OCS 利用微机电系统(MEMS)里的微小镜面,直接反射光束进行路由。光进光出,零延迟,且不消耗信号能量。
第二章 散热革命:从风冷到液冷
当单芯片功耗(TDP)突破 1000W(如 Blackwell B200),风冷散热器已经做得像砖头一样大,依然压不住热量。
2.1 冷板式液冷(Cold Plate)的普及
这是目前最主流的过渡方案。
- 方案:将铜质水冷头紧贴 GPU 表面,冷却液在管道内循环带走热量。
- 挑战:漏液风险。一旦冷却液泄漏,整机报废。因此,2025 年出现了负压系统——管道内气压低于外部,即使破裂,空气会吸入而不是液体流出。
2.2 浸没式液冷(Immersion Cooling)的终局
这是真正的未来。
- 单相浸没:服务器完全泡在绝缘油中,利用液体的自然对流散热。
- 两相浸没:服务器泡在氟化液中,液体受热沸腾变成气体(相变带走巨大潜热),气体上升到顶盖冷凝回液体滴落。
- PUE(能源使用效率):传统风冷机房 PUE 约为 1.5,两相浸没可以将 PUE 降至 1.02。这意味着几乎所有的电都用在了计算上,而不是空调上。
第三章 芯片架构:ASIC 的反攻
GPU 是通用的,但在推理侧,通用意味着浪费。
3.1 晶圆级芯片(Wafer-Scale Engine)
Cerebras 走的路线极其激进:不切晶圆。
- 传统的芯片是在晶圆上切下来的一小块(Die)。Cerebras 直接把整张 12 英寸晶圆做成一颗芯片,拥有 85 万个核心。
- 优势:核心之间的通信完全在芯片内部完成,带宽是 GPU 互连的几千倍。这使得它在处理超大模型推理时,可以做到 Batch Size = 1 的极致低延迟。
3.2 存内计算(Processing-in-Memory, PIM)
冯·诺依曼架构的原罪在于:计算单元和存储单元是分离的。数据在两者之间搬运消耗了 90% 的功耗。
- PIM 技术:直接在 DRAM 内存颗粒内部集成简单的计算逻辑。数据在哪里,就在哪里计算。
- 应用:非常适合矩阵乘法等 AI 基础运算,虽然精度较低,但在边缘侧推理场景下极具潜力。
第四章 绿色计算:碳排放的紧箍咒
AI 是吞电兽。2025 年,能源获取能力成为了算力中心选址的第一要素。
4.1 随源而动
数据中心正在从北上广深,迁移到内蒙古、贵州,甚至冰岛。
- 哪里有便宜的风电、水电,算力就建在哪里。
- 微软甚至尝试在海底建设数据中心(Project Natick),利用无限的海水进行散热。
4.2 算力热回收
欧洲的数据中心开始承担供暖任务。
- 既然 AI 芯片发热这么大,为什么不把这些热废气收集起来,给周边的居民社区供暖?这不仅减少了碳排放,还创造了额外的经济收益。
结语
算力基础设施的竞争,已经演变成一场材料学、流体力学和光学的综合竞赛。
在这场军备竞赛中,没有所谓的“性能过剩”。因为软件(模型)对算力的吞噬是贪婪的,硬件的每一次进步,都会被更大、更聪明的模型瞬间填满。
本文档由 Augmunt 前沿技术研究院硬件组撰写,基于 2025 年全球半导体产业链调研。
