西门子Simcenter T3STER SI设备测试大功率AI芯片
日期:2026-03-27
西门子Simcenter T3STER SI设备测试大功率AI芯片
-- 对《Rapid AI-driven Power-Thermal Intelligent DVFS for HPC Applications》论文中瞬态热测试部分的解读和分析
引言
在当今科技飞速发展的时代,高性能计算(HPC)与人工智能(AI)的结合正推动着各行各业的创新与进步。HPC提供的强大计算能力与AI的智能分析能力相辅相成,为解决复杂问题和推动科学研究提供了新的动力。
在HPC芯片和AI芯片功率持续攀升的时代,一个关键问题摆在芯片设计者面前:如何精确表征这些大功率芯片的热特性?瞬态热测试技术是否还能满足现在大功率芯片热测试的需求?
面对HPC芯片与AI芯片功率密度不断提升的挑战,西门子Simcenter Micred产线作为瞬态热测试技术的领导者,为Simcenter T3STER SI设备开发了高达20A精确的测试电流源,可精确测量从微秒到秒级的芯片热响应。通过独特的结构函数技术,为大功率芯片的热管理和性能优化提供关键数据支撑。
本文将通过解读与分析发表在2025 IEEE 75th Electronic Components and Technology Conference(ECTC)上的论文《Rapid AI-driven Power-Thermal Intelligent DVFS for HPC Applications》中关于瞬态热测试的关键内容,来介绍Simcenter T3STER SI设备在大功率芯片瞬态热测试中的应用。
论文的背景和摘要
此论文的题目是《Rapid AI-driven Power-Thermal Intelligent DVFS for HPC applications》,即《面向高性能计算应用的快速人工智能驱动功率-热智能动态电压与频率调节(DVFS)》。论文发表在2025 IEEE 75th Electronic Components and Technology Conference (ECTC)。作者是Groq Inc的Zhi Yang、Yong Pei、Mohamed Eldafrawy、Santosh Raghavan、Liming Gong、Igor Arsovski,Siemens Digital Industry Software的Richard Ozaki、Jimmy He,以及VisualizationSolution的Vivian Zheng。
Groq, Inc.是一家专注于高性能人工智能(AI)推理的初创公司,成立于2016年,总部位于加州山景城。其核心产品是LPU™推理引擎,旨在加速生成式AI模型的运行。Groq的技术使得开发者能够快速切换到其平台,并提供云端和本地解决方案,支持大规模AI应用。
在论文的摘要中提到,随着AI工作负载的扩大,数据中心面临巨大的功耗和散热问题,预计到2027年,仅人工智能服务器每年就将消耗超过130太瓦时(TWh)。传统的热建模方法(如FEA)计算成本高昂,且难以实现实时优化。现有的动态电压和频率调节(DVFS)策略也因未能准确捕捉实时功率-温度相互作用而效果有限,这是因为功耗与温度之间的关系本质上是互相影响的,更高的功耗会导致温度升高,而温度升高又会增加泄漏功率,进一步加剧热约束。为了解决这个问题,引入了一种基于“边界条件无关降阶建模(BCI-ROM)”的AI驱动功率-热协同设计框架。
这个框架结合了通过瞬态热测试校准详细的FEA模型的测试、仿真流程,和ROM预测建模,实现了超过1000倍的实时瞬态功率-温度动态仿真速度,同时保持了FEA的精度(温度偏差仅0.3°C)。在此基础上,进一步引入了AI驱动的DVFS控制优化策略。这种策略能根据实时温度反馈动态调整频率和电压,避免了传统DVFS的静态或粗粒度限制。
这项工作为HPC和AI应用提供了一种可扩展、高精度的功率-热联合优化方法,重新定义了DVFS策略,提升了芯片性能、能效和热管理可靠性,为半导体功率优化树立了新标准。
什么是瞬态热测试和瞬态热测试的基本过程
作为功率-热协同设计框架的一部分,瞬态热测试技术被用于对大功率芯片进行热测试,并获取了描述其散热路径的结构函数曲线。这些数据对于框架中的模型校准和模型验证至关重要,确保了协同设计框架方法的准确性和可靠性。
瞬态热测试(Thermal Transient Measurement)技术是一种用于表征半导体芯片/器件/模组的热阻和热容特性的技术。与只测量最终稳定状态结温的稳态热测试相比,瞬态热测试关注的是被测器件在功率变化,通常是突然施加或移除功率时,其被测器件的结温随时间变化的动态响应。通过分析结温随时间变化的动态响应,进而获得描述被测器件散热路径的结构函数曲线。
想象一下,当突然打开一个电热水壶,水温不会立刻达到沸点,而是逐渐升高。瞬态热测试就是测量这种“逐渐升高”或“逐渐降低”的过程,当然,半导体器件结温的变化会更加迅速。通过分析这个过程,可以深入了解热量在芯片到环境的整个散热路径中是如何传递的。
在瞬态热测试中,首先对被测半导体器件施加测试电流进行温度敏感参数(TSP)的精确测量与标定。随后,对被测半导体器件施加加热电流并达到热平衡状态。在结温达到热平衡状态后,瞬间切换掉加热电流。在施加测试电流的情况下,测量被测半导体器件在结温下降阶段正向电压随时间的变化关系并记录下来,直到结温与环境温度达到新的热平衡状态。被记录下来的正向电压数值通过被测半导体器件的温度敏感参数被转换成为相应的结温随时间变化的关系。

图:瞬态热测试中被测半导体器件结电压的变化过程

图:在被测器件的I-V特性中显示的被测半导体器件“电瞬态”和“热瞬态”状态的转变
结构函数(Structure Function)是瞬态热测试的一个重要输出。它是一种将热阻和热容沿着被测器件散热路径进行分解的图形表示。通过结构函数,可以清晰地识别出散热路径中的各个材料层,例如:芯片、焊料层、封装材料、散热器等,及其对应的热阻和热容,从而发现散热瓶颈,优化散热设计。

图:一个IGBT器件的截面图和瞬态热测试后获得的结构函数曲线
分析结构函数曲线,识别出散热路径中的各个材料层,包括:芯片、焊料、基板、封装、散热器等,及其对应的热阻和热容。根据这些信息,可以评估器件的散热性能,找出散热瓶颈,并指导封装设计、散热器选择或系统集成优化。
论文中涉及大功率AI芯片瞬态热测试的过程
论文中的被测半导体器件为单芯片模块(SCM:Single-Chip Module)封装。瞬态热测试采用的加热对象和测试对象是封装中Groq语言处理单元(LPU)在反向偏置时的衬底二极管。选择LPU的原因是此LPU为确认性架构,提供可预测和可重复的性能。

图:Groq LPU结构化平面图
使用的瞬态热测试设备为西门子Simcenter T3STER SI设备。此设备为新一代瞬态热测试解决方案,其模块化架构使其能够灵活组合,适用于实验室及生产环境中的瞬态热测试需求。该设备支持工程师根据半导体器件的测试原理和电路定律,实现对被测器件的任意接线配置,极大地提升了测试的灵活性。
Simcenter T3Ster SI系统具备高度定制化能力,能够支持相对复杂的瞬态热测试场景,包括瞬态转移热阻抗曲线(即“耦合热阻/互热阻”)的测试。其设计旨在优化用户体验,通过减少用户操作、降低误操作风险,并支持远程操控,实现自动化测量。用户无需身处实验室,即可通过网络连接进行测试,显著提升了工作效率。
Simcenter T3Ster SI系统采用了创新的电路设计,所有电源通道和测量通道均独立接地,有效避免了接地问题,进一步提高了接线的灵活性并减少用户错误。其测量通道支持高达80V的测量范围和18bit的结电压测量分辨率,这一显著优势消除了对外部预分压器的需求,从而带来了更低的噪声、更高的分辨率以及更优的信噪比。

图:西门子Simcenter T3STER SI设备

图:采用Simcenter T3STER SI设备和老式T3Ster设备进行瞬态热测试所得原始曲线的对比
在瞬态热测试中采用了20A大电流测试电流源。此电流源是西门子Simcenter Micred产线为大功率芯片测试,以及GaN器件测试而专门开发的。它具有最大20A的电流能力,0.3mA的分辨率,0.3%+10mA的误差,以及12V的电压能力。

图:20A大电流测试电流源示意图
瞬态热测试中的加热电流是由Simcenter T3STER Booster 240A/11V提供。此Booster可以输出最大240A的加热电流,具有15mA的分辨率,0.2% set + 240mA的误差,以及11V的电压能力。该Booster还具备功率半导体器件测试能力,支持IGBT、MOSFET等功率半导体的测试。并集成栅极延时(Gate Voltage delay Timing)测试功能,可满足第三代半导体器件瞬态热测试的应用需求。
.png)
图:Simcenter T3STER Booster 240A/11V
针对大功率芯片的瞬态热测试,将使用LPU在反向偏置状态下的衬底二极管进行测量。通过对LPU的“Vdd”和“GND”引脚施加反向偏置,衬底二极管将用作瞬态热测试的加热对象和测试对象。在此瞬态热测试中,为了使测量可重复且可复现,使用了20A的测试电流和140A的加热电流。

图:衬底二极管的示意图
将被测大功率芯片接好加热线缆和测试线缆,通过夹具放置在控温的液冷板上,即可开始瞬态热测试。

图:测试设置
瞬态热测试过程中,首先使用Simcenter T3STER Booster 240A/11V模块向被测半导体器件施加140A的加热电流,使器件结温升高并达到热稳态。随后将加热电流快速切换至较低且恒定的20A测试电流,此20A测试电流由20A大电流测试电流源提供。在被测器件冷却过程中,同步采集其瞬态电压响应。由于衬底二极管电压变化与结温变化存在对应关系,因此可通过预先标定得到的电压—温度特性关系,将测得的瞬态电压信号转换为结温响应曲线。在此基础上,进一步对瞬态热测试数据进行处理,可获得Foster热网络模型,并通过网络识别反卷积(Network Identification by Deconvolution,NID)方法提取结构函数,从而实现器件热特性的表征与分析。

图:被测器件瞬态热测试的原始曲线
瞬态热测试后获得的结构函数能够表征被测单芯片模块封装内部主要结构单元,包括芯片、芯片与盖板之间的连接层以及盖板等的热阻–热容分布特征,并可进一步延伸至封装边界之外,因此可视为真实的、物理上的Groq LPU封装热行为的一维物理映射。在相同边界条件下,若所建立的详细热模型能够重现实测瞬态热响应,并生成与测量结果一致的结构函数,则表明该详细热模型能够较准确地反映器件的热传输特性,并在较宽输入频率范围内具备良好的预测能力。因此,结构函数可作为热模型校准与验证的重要参考依据。通常情况下,模型预测与测量结果之间的偏差主要来源于几何结构描述不准确、热源区域定义不匹配、材料热物性参数偏差以及界面热阻设置不合理等因素。借助西门子Simcenter Flotherm,可导入基于测量获得的结构函数,并通过专用界面对上述关键参数进行迭代修正,直至仿真结构函数与实测结构函数达到良好一致,从而实现封装热模型的有效校准。

图:结构函数曲线

图:结构函数曲线和被校准的结构函数曲线(蓝色为Simcenter T3STER SI测量的结构函数曲线,红色为Simcenter Flotherm校准的结构函数曲线)
Groq ROM与AI驱动的DVFS热优化
传统有限元(FEA)分析方法虽能较准确地描述稳态热行为,但在高时间分辨率瞬态热仿真中计算代价较高,难以满足DVFS等功率–热耦合控制策略的快速评估需求。为此,采用了Groq ROM方法,在保持与传统FEA相当精度的前提下,将热仿真速度提升超过1000倍,并在微秒至秒级时间范围内将最大温度偏差控制在0.3℃以内。基于该快速热模型,结合遗传算法对大规模DVFS设计空间进行搜索,可高效优化不同频率调节规则下的温度阈值参数。结果表明,AI驱动的DVFS策略在保证结温不超过临界温度的前提下,可显著缩短任务完成时间,体现出该方法在功率–热协同设计与动态热管理中的有效性与工程应用价值。
总结
西门子Simcenter T3STER SI设备通过瞬态热测试技术精准提取了Groq LPU封装的结构函数,建立了测试数据与仿真模型之间的高保真关联,为后续基于BCI-ROM的功率-热协同优化奠定了坚实的物理基础,确保了整个设计框架在微秒到10秒时间尺度上的高精度验证(最大温度偏差仅0.3°C),使得快速、可靠的AI驱动DVFS优化成为可能。
在功率-热协同设计框架中,瞬态热测试提供了实验数据进行FEA模型校准:通过瞬态热测试获得的精确热阻和热容数据,可以用来校准和验证协同框架中使用的有限元分析(FEA)模型,确保这些模型能够准确反映真实芯片的热行为。瞬态热测试是实现这一目标的关键手段之一。
参考文献
[1] Z. Yang et al., "Rapid AI-driven Power-Thermal Intelligent DVFS for HPC Applications," 2025 IEEE 75th Electronic Components and Technology Conference (ECTC), Dallas, TX, USA, 2025, pp. 493-498, doi: 10.1109/ECTC51687.2025.00087.
[2] JEDEC Solid State Technology Association, "JESD51-51: Implementation of the Electrical Test Method for the Measurement of Real Thermal Resistance and Impedance of Light-Emitting Diodes with Exposed Cooling Surface," Arlington, VA, USA, 2012.
[3] F. Yake, W. Gang, X. Chen, W. V. Hon, X. Fu and V. -V. Andras, "Detailed analysis of IC packages using thermal transient testing and CFD modelling for communication device applications," 2016 22nd International Workshop on Thermal Investigations of ICs and Systems (THERMINIC), Budapest, Hungary, 2016, pp. 164-168, doi: 10.1109/THERMINIC.2016.7749046.
关于上海坤道
上海坤道信息技术有限公司成立于2009年,前身为英国Flomerics公司中国代表处,现为西门子工业软件(原Mentor Graphics公司)在中国大陆的授权金牌和专家级(Expert Partner)合作伙伴。一直以来,坤道专注于热仿真和热测试领域,为电子半导体、汽车、航天航空等行业提供Simcenter FloEFD、Flotherm Flexx、Flomaster等流体传热仿真软件解决方案和Simcenter T3STER热阻测试、Simcenter POWERTESTER功率循环测试、SanjSCOPETM 反射率热成像系统等硬件解决方案,具备资深专业、经验丰富的技术团队提供产品销售、项目咨询、硬件定制开发和技术培训等服务。目前,坤道公司已为400多家企业与机构提供热仿真&热测试解决方案和应用实践落地。
欢迎关注 上海坤道 SimuCAD 公众号,我们将为您带来最新产品资讯和专业的解决方案。
.jpg)
联系我们:
电话:021-62157100
邮箱:marketing@simu-cad.com
官网:http://www.simu-cad.com
哔哩哔哩:上海坤道SIMUCAD










沪公网安备 31010602003953号