当Intel和AMD在2025年OCP峰会上公布下一代服务器CPU路线图时,整个数据中心行业都倒吸一口凉气——Granite Rapids-D和EPYC Turin等处理器将突破900W TDP大关。这不仅仅是数字游戏,而是对散热技术的一次全面考验。作为一名长期跟踪数据中心散热技术的工程师,我亲历了从40W到900W的散热演进历程,而这次挑战尤为严峻。
问题的核心在于热流密度。现代CPU的发热区域正在不断缩小,以LGA6096封装为例,实际高发热的核心区域仅有28mm×28mm左右。简单计算就能看出危机:900W功耗分摊到7.84cm²的面积上,平均热流密度已达115W/cm²。更可怕的是,实际热点区域往往只有2-3cm²,局部热流密度轻松突破300W/cm²。这相当于要在指甲盖大小的面积上,持续散发相当于三个家用电磁炉的功率!
传统散热方案在这样的热流密度面前显得力不从心。风冷方案即使采用最先进的热管和均温板技术,整机热阻也难以低于0.1K/W。这意味着在900W负载下,仅冷端温升就超过90°C,完全无法满足现代CPU结温低于100°C的基本要求。单相液冷虽然表现稍好,但其理论热通量上限也只有150-200W/cm²,依然无法覆盖300W/cm²的实际需求。
风冷技术的瓶颈在于空气的物理特性。空气的热导率仅为0.026W/(m·K),即使通过强制对流和复杂鳍片设计,对流换热系数也很难突破100W/m²·K。我曾测试过某品牌旗舰级服务器风冷散热器,在800W负载下,CPU温度在3秒内就突破了热保护阈值。
单相液冷看似是更优解,水的热导率(0.6W/(m·K))是空气的23倍,典型换热系数可达5000-8000W/m²·K。但根据牛顿冷却定律Q=hAΔT,在有限换热面积和允许温差(通常≤30°C)下,其理论热通量上限约为150-200W/cm²。更棘手的是,为了维持这样的性能,需要极高流量的水泵,实测泵功占比可达整机功耗的5-8%,这与数据中心追求低PUE的目标背道而驰。
两相冷却技术利用工质相变潜热,理论上可以突破单相冷却的限制。但现有商用方案多采用R134a、R245fa等氟利昂类工质,在40°C工况下系统压力高达7-8个大气压。我在某超算中心就亲眼见过高压两相系统泄漏的后果——高压工质以射流形式喷出,不仅造成设备短路,还污染了整个机柜的光学检测系统。
高压系统带来的风险包括:
对于单机柜价值超过2000万元的AI服务器集群,这样的风险显然不可接受。
针对上述挑战,我们团队开发了常压两相冷却方案,其核心创新在于:
这种设计使得系统在数据中心典型环境温度(25-40°C)下自然处于气液两相区,无需额外加压。即使发生泄漏,工质也只会以蒸气形式缓慢逸出,完全避免了高压喷射风险。
在实际部署中,我们特别注重系统的易维护性。冷板采用快拆设计,更换时间不超过5分钟,且不需要特殊工具。这对于数据中心运维人员来说至关重要。
冷板基板采用OFHC无氧铜,内部微通道结构经过特殊优化:
通过计算流体力学(CFD)仿真和实际测试,我们验证了这种设计可以实现:
在Intel Xeon Max 9480等效热模型上的测试结果显示,即使在900W稳态+100W/10ms瞬态脉冲负载下,芯片结温也能稳定在83±2°C,远优于同类高压方案的92±7°C。
为了验证方案的普适性,我们在不同气候区进行了实地测试:
| 测试地点 | 夏季机房温度 | 启动时间 | 稳态换热系数 |
|---|---|---|---|
| 北京 | 32°C | 2.8秒 | 25,000W/m²·K |
| 深圳 | 38°C | 3.1秒 | 28,000W/m²·K |
测试结果表明,系统能在3秒内快速启动并进入稳定工作状态,且性能不受地域气候影响。这对于全国范围内部署的数据中心来说至关重要。
在实际运营中,我们总结了以下关键维护经验:
特别注意:虽然系统设计为常压,但仍需避免在系统运行时打开注液口,以防工质蒸气喷出。
根据我们收集的运维数据,常见问题及解决方法如下:
| 故障现象 | 可能原因 | 解决方案 |
|---|---|---|
| 温度波动大 | 工质不足/气泡积聚 | 1. 检查工质液位 2. 系统排气 |
| 冷板温差大 | 微通道局部堵塞 | 1. 反向冲洗 2. 更换冷板 |
| 系统压力低 | 微小泄漏 | 1. 肥皂水检漏 2. 紧固连接件 |
特别提醒:当发现冷板温差突然增大时,应立即检查,这往往是微通道堵塞的前兆。我们曾遇到过一个案例,因为忽略了这个警告信号,最终导致CPU过热损坏。
900W CPU只是开始,行业预测显示,到2028-2030年,我们将迎来1kW+ TDP的CPU。这要求散热技术持续创新,可能的演进路径包括:
我们团队已经开始与先进封装厂合作,探索2.5D Chiplet架构中的嵌入式冷却方案。目标是到2028年实现>500W/cm²的芯片级散热能力。
在"东数西算"政策推动下,新建数据中心PUE要求将越来越严格(东部≤1.15)。常压两相冷却技术不仅能满足高热流密度散热需求,其泵功占比也仅为2-3%,远低于单相液冷的5-8%,这将为数据中心能效提升做出重要贡献。
经过三年多的研发和实际部署验证,我深刻体会到:在高性能计算领域,散热已不再是配套技术,而是决定芯片能否发挥全部性能的关键因素。常压两相冷却方案在性能、安全和易用性之间找到了最佳平衡点,为下一代算力基础设施提供了可靠的热管理解决方案。