AMD在Tech Day 2024结束后,通过Zen 5 Architecture Deep Dive说明会解说Zen 5、RDNA 3.5、XDNA 2等架构的设计特色,笔者将重点整理于下。
1种Zen 5、多种应用
AMD首先在Ryzen 9000系列台式处理器以及Ryzen AI 300系列移动版处理器导入Zen 5处理器运算架构,随后预计于2024年下半推出同样采用Zen 5架构、代号为Turin的第5代Epyc服务器处理器,并在投视频中透露也将推出对应的嵌入式处理器。
我们将重点放在家用市场产品,首先看到采用小芯片(Chiplet)设计、代号为Granite Ridge的Ryzen 9000系列台式处理器,并从处理器核心开始,由小而大说明其组织架构。
Ryzen 9000的每组核心搭配1MB L2快取内存,并以最多8组核心构成1组CCX(Core Complexes,核心复合体),共享32 MB L3快取内存,然后每组CCX构成1组CCD(Core Chiplet Die,核心裸晶),处理器能够容纳1或2组CCD,而CCD采用TSMC(台积电)4nm节点制程。
举例来说,6核心的Ryzen 5 9600X只有1组CCX,这组CCX只有6组核心。 而16核心的Ryzen 9 9950X的具有2组CCX,每组CCX则有8组核心。
此外,Ryzen 9000还有1组负责内存控制、输出 / 输入接口以及内置显示等功能的IOD(I/O Die,I/O裸晶)。 值得注意的是AMD先前在Tech Day 2024提到为了简化研发流程并加速上市日程,因此在Ryzen 9000中沿用了Ryzen 7000世代的IOD,维持TSMC 6nm节点制程,保有具2组运算单元(CUs)的内置显示芯片以及视频编、解码加速单元,提供最基本的显示功能。
▲ AMD会在Ryzen 9000系列桌面型处理器、Ryzen AI 300系列移动版处理器、第5代Epyc服务器处理器、嵌入式处理器等产品中导入Zen 5架构,并应用Zen 5、Zen 5c等2种衍生核心。
▲ Ryzen 9000系列台式处理器采用小芯片(Chiplet)设计,上方2组方型区域为2组CCD,下方则为1组IOD。
▲ Ryzen 9000系列台式处理器的CCD、IOD功能方块图。
移动版采单一封装设计
至于代号为Strix Point的Ryzen AI 300系列移动版处理器部分,则采用单一封装SoC设计,将最多2组CCX与I/O功能置于单一裸晶之内,其中各CCX最多可以容纳8组Zen 5或是8组Zen 5c(后详)核心。
举例来说,Ryzen AI 9 HX 370的2组CCX分别具有4组Zen 5以及8组Zen 5c核心,总共为12核心配置,而Ryzen AI 9 HX 365则分别具有4组Zen 5以及6组Zen 5c核心,总数为10核心。
Ryzen AI 300的I/O功能最大的改变之处在于强化内置显示芯片,除了由RDNA 3架构提升为效能与电力效率都更高的RDNA 3.5绘图架构外,运算单元最大数量也由12组提升至16组,能够带来更高的游戏与3D绘图效能。 另一方面它也将NPU(神经处理器,主要应用于AI运算)的运算架构由XDNA升级为XDNA 2,并将AI引擎模块(AI Engine Tile)数量由前代的20组扩充为32组,相较于前代产品具有5倍效能与2倍电力效率。
不过在新增如此多功能的取舍之下,由处理器提供的PCIe Gen 4通道由原本的20组下调为16组,意味着笔记本电脑产品在安装固态硬盘之后通道配置将拆为8+8或8+4+4,造成独立显示芯片只能使用PCIe Gen 4×8通道,对于高端电竞、创作者笔记本来说影响较大。
▲ Ryzen AI 300系列移动版处理器则将CCX与I/O功能设置于单一裸晶之内。
▲ Ryzen AI 300系列移动版处理器的CCX、I/O功能方块图。
▲ Ryzen AI 300系列移动版处理器是目前唯一集合Zen 5、RDNA 3.5、XDNA 2等AMD最新架构的产品。
▲ Ryzen AI 300系列移动版处理器内置的XDNA 2架构NPU较前代产品具有5倍效能与2倍电力效率。
Zen 5、Zen 5c同架构小改款
Zen 5架构的设计目标包括最大化1条与2条执行绪的效能提升,并在AVX-512指令集完整支持512 bit数据路径(Datapath),同时支持可调整式的FP512、FP256数据路径,以增进矢量运算与AI运算的效能,并能够选则使用4nm或3nm节点制程,以满足不同效能、功耗、成本定位的产品需求。
此外AMD也推出Zen 5、Zen 5c等2种衍生核心,Zen 5为正常版核心,而Zen 5c代表「Compact」紧致版核心。 2者都支持相同的指令集以及SMT(Simultaneous Multithreading,多线绪),并具有一样的IPC(Instructions per Cycle,每周期指令),主要的差异在于最高时钟以及L3快取内存容量不同。
以代号为Strix Point的Ryzen AI 9 HX 370移动版处理器为例,它具有2组CCX,其中1组具有4组Zen 5核心搭配16 MB L3快取内存,另1组具有8组Zen 5c核心搭配8 MB L3快取内存。
Zen 5核心针对单线程性能进行优化,具有更高的时钟与容量更大L3快取内存,但是相对而言会占据更大的裸晶面积。 相较之下,虽然Zen 5c核心的最高时脉比较低,L3快取内存容量也比较小,但是能在相同的裸晶面积下提供更多核心数量,并且具有较佳的电力效率,适合在提升系统多工效能的同时控制整体电力消耗。
AMD也表示由于Zen 5、Zen 5c等2种核心支持相同的指令集、具有相同IPC且都支持SMT,因此在资源调度方面会比竞争对手Intel所使用的P-Core、E-Core设计会简单许多。 后者的2种核心支持指令集范围并不完全相同,各核心的IPC也不相同,且仅P-Core支持SMT,将会因为不同核心之间差异过大,而增加操作系统与处理器内部等软、硬件工作排程器运作的复杂性,虽然有着可以提高电力效率的优势,但也有效能比较难达成优化的潜在隐忧。
▲ Zen 5架构设计重点之一就是最大化1条与2条线程(1T、2T)的效能提升,并通过完整支持AVX-512来强化AI运算效能。
▲ Zen 5属于「满血版」处理器核心,而Zen 5c则通过降低时脉与L3快取内存换取更高的电力效率与更小的裸晶占用面积。
笔者将在下篇文章中继续深入解说Zen 5处理器。