AMD Instinct MI300X 架构在 2024 年 Hot Chips 大会上的展示
2024/8/28 16:29:26
来源:https://www.servethehome.com/紫鹏
美国超微半导体公司(AMD)在2024年的热门芯片会议(Hot Chips)上,对其备受瞩目的加速器产品AMD Instinct MI300X进行了深入解析。AMD通常在产品已经上市一段时间后,才会在这样的技术论坛上详细介绍其技术细节,而这些内容我们已在之前的报道中有所涉及。MI300X可谓AMD在2024年Hot Chips会议上的焦点产品。我们了解到,对MI325X的更新版本即将面世。值得注意的是,AMD Instinct MI300X是目前除NVIDIA GPU之外,唯一在人工智能行业达到年运行率数十亿美元的GPU。
上周,AMD收购了ZT Systems公司,后者正是微软Azure MI300X平台的制造商。
在2024年的Hot Chips会议上,AMD Instinct MI300X的架构展示如下:
MI300A被广泛应用于超级计算机,如HPE的El Capitan。MI300X似乎正推动该系列今年的收入超过40亿美元。
AMD Instinct MI300X的架构相当复杂,集成了192MB的高带宽内存三代(HBM3)、用于计算的小芯片(chiplets)以及其他组件。
以下展示了AMD CDNA 3架构的发展历程。
AMD拥有一个8层HBM3内存阵列,容量为192GB,在当时是个巨大的进步。
MI300X的架构图揭示了用于计算的XCDs,Infinity缓存、Infinity结构,以及8个HBM包的布局。
下面的缓存和内存层次结构图显示,不仅有192GB的HBM3,还有256MB的Infinity缓存,以及8个4MB的L2缓存等高级特性。
MI300X支持单一分区运行,也可在不同的内存和计算分区模式下运行。
AMD的主要平台目前是8路MI300X OAM平台。
以下是AMD Instinct系统的历程,MI200同样采用了OAM板,但在这里它被视作单个GPU。
这是AMD对NVIDIA HGX平台的回应。
每个GPU有七条直接连接链路,加上主机链路。
在今天的OpenAI演讲之后,RAS(可靠性、可用性和可服务性)在大规模AI集群中成为关注焦点。
这是AMD的服务器。微软Azure和ZT Systems的MI300平台未在此提及。遗憾的是,戴尔在AI平台上仍未提供EPYC支持。同样未提及的是Wiwynn平台。
AMD谈到了其ROCm库的改进。
在某些情况下,AMD能超越NVIDIA H100。当然,我们预计,随着液冷技术的采用以及B100/B200芯片的即将推出,NVIDIA H200将更频繁地部署。在AMD这边,MI325X的承诺也得到了确认。这需要结合时间因素来考量。
以下是MPT微调,AMD宣称其性能与H100相当。
当本次演讲进行时,大约三个月前,我们了解到2025年AMD Instinct MI350 288GB GPU和2024年的MI325X的规划。
因此,MI300X是AMD在2023年的设计,它正与H100竞争,我们预计不久的将来,双方都将被具有更高内存容量的版本所取代。
尽管如此,AMD已在数十亿美元级别的产品线中稳固了其作为AI GPU市场的第二名位置,仅次于NVIDIA。这令人鼓舞。我们期待看到更多未来的产品信息,但可能要等到第四季度才会揭晓。
【近期会议】
10月30-31日,由宽禁带半导体国家工程研究中心主办的“化合物半导体先进技术及应用大会”将首次与大家在江苏·常州相见,邀您齐聚常州新城希尔顿酒店,解耦产业链市场布局!https://w.lwc.cn/s/uueAru
11月28-29日,“第二届半导体先进封测产业技术创新大会”将再次与各位相见于厦门,秉承“延续去年,创新今年”的思想,仍将由云天半导体与厦门大学联合主办,雅时国际商讯承办,邀您齐聚厦门·海沧融信华邑酒店共探行业发展!诚邀您报名参会:https://w.lwc.cn/s/n6FFne
声明:本网站部分文章转载自网络,转发仅为更大范围传播。 转载文章版权归原作者所有,如有异议,请联系我们修改或删除。联系邮箱:viviz@actintl.com.hk, 电话:0755-25988573