近来常常碰到一些关于SXM的题目,特别是对H100、H800的差别版本有很多疑问,在这里保举各人看一下下面这个文章:
一文看懂英伟达A100、A800、H100、H800各个版本有什么区别
SXM是一种高带宽Socke(接口)办理方案,将NVIDIA盘算加快器(也就是NVIDIA的GPU,贩卖战略下也称为ComputeAccelerator,以区别于CPU)毗连到体系中。
从P100型号以来每一代NVIDIA数据中心GPU(Tesla,DGXcompute系列和HGX系列)主板都有SXM插座范例,可以实现高带宽、功率传输等,用于匹配的GPU紫卡:
第一代SXM:基于Pascal的GPU
第二代、第三代SXM:基于Volta的GPU
第四代SXM:基于Ampere的GPU(比方NVIDIAA100TensorCoreGPU)
第五代SXM:基于Hopper的GPU
SXMSocket的特定型号产物逗比PCIe同代产物具有更高的GPU性能:设置更高的GPUMemory而且具备更大的GPUMemoryBandwidth
SXM板通常带有四个或八个GPU插槽,NVIDIA提供预制的NVIDIAHGX板,使得基于SXM的GPU服务器大大低落了本钱和难度,而且实现了同代全部板卡的兼容性和可靠性。
SXM模块,如HGX板,在近来系带,大概具备NVLink开关以实现GPU到GPU通讯,镌汰了通常位于CPU和PCIe的瓶颈:
子卡上的GPU仅利用NVLink作为其重要通讯协议
比方,基于Hopper的H100SXM5GPU可以在18个NVLink4通道上利用高达900GB/s的带宽,每个通道贡献50GB/s的带宽(PCIe5.0可以处理惩罚高达64GB的带宽/x16插槽内的带宽)
NVLink高带宽还意味着GPU可以通过NVLink总线共享内存,从而答应整个HGX板作为单个大型GPU出现给主机体系。
供电也由SXM插座处理惩罚,无需外部电源线(PCIe划一GPU卡必要外接电源)
可以采取更高效的冷却选项,从而是SXM的GPU以更高的TDP运行(同代的GPU,SXM的最高功率约莫是PCIe的两倍:比方,基于Hopper微架构的H100仅通过SXMSocket就可以斲丧高达700W功率)
没有布线也使得大型体系的组装和维修变得更加轻易,而且还镌汰了大概的故障点
多年不停专注于科研服务器,入围政采,H100、A100、H800、A800、RTX6000Ada,单台双路192核心服务器等。
我要评论