AMD锐龙AI 300系列处理器：全面焕新、大幅提升的AI性能解读

更新时间：2024-08-08 18:18:24作者：czlaby

在ComputeX 2024展会上，AMD针对移动平台推出了全新的锐龙AI 300系列处理器。在处理器的命名上，AMD跳过了100、200系列，直接进入了300系列，并且加入了“AI”这个时下热门的词汇。由于整个命名体系的改变，我们应该如何解读锐龙AI 300系列处理器呢？在CPU微架构、NPU、GPU方面，新的处理器又有哪些变化和惊喜呢？请看本文的深度解读。

锐龙AI 300系列：新命名、新型号、新AI

AMD之前的移动处理器系列都是“AMD锐龙”+“四位数字”的方式组成，比如锐龙7000、锐龙8000系列等。这一次，AMD一改往日风格，采用了新的命名风格，即“AMD锐龙AI”+“1位系列数字”+“2位字母”+“三位型号数字”的方式，比如“AMD锐龙AI 9 HX 375”。全新的命名方式突出了AI在处理器中的作用，同时简化了用户辨认处理器的方法。

▲AMD锐龙AI 300系列处理器外观图

我们猜测，锐龙AI系列处理器可能将拥有“9”“7”“5”等多个等级的产品，也可能会有“HX”“HS”或者干脆没有英文标识，数字型号方面，性能越大数字越大，比如“375”的性能比“365”强。因此未来我们有可能看到类似“锐龙AI 7 HX 350”这样的处理器型号。

在英文标识方面，目前只看到了之前往往是代表高性能版本的“HX”，但是在新的产品上，HX标识与前面的数字9一起来表示品牌等级，高端定位但并非高功耗版本，暂时不知道未来的高性能、高功耗版本将启用哪个英文代号。

▲AMD锐龙300 AI系列处理器已经为Windows生态做好了准备

另外，对于锐龙AI 300系列中的“300”，AMD解释这是因为本代产品是其第三代AI处理器产品。那么第一代、第二代在哪里呢？如果长期关注本刊的读者，应该了解早在锐龙7040系列实际上就率先在x86处理器内置了XDNA架构的NPU，我们还写过多篇文章予以介绍，锐龙8040系列则进一步加强了NPU的算力，是AMD第二代AI PC处理器。

▲目前AMD发布了3款锐龙AI 300系列移动处理器

再来看看产品系列。由于产品刚发布没多久，AMD目前只推出了三款锐龙AI 300系列处理器，分别是锐龙AI 9 HX 375、锐龙AI 9 HX 370以及锐龙AI 9 365。其中前两款处理器都是12核心24线程，最高频率为5.1GHz，TDP功耗为28W，厂商也可以在功耗范围内自行选择（15W～54W），内置的GPU都是Radeon 890M。

唯一差别在于，前者的NPU算力比后者高5 TOPS，锐龙AI 9 HX 375为55 TOPS，而锐龙AI 9 HX 370则为50 TOPS，是当前笔记本市场中最高算力的NPU。锐龙AI 9 365规格略低，10核心20线程，GPU型号为Radeon 880M，最高频率降低到5.0GHz。

总的来看，锐龙AI 300系列处理器尚处于发布的早期，产品型号暂时只有高端产品，中高端和中端布局不够齐全。期待AMD再接再厉，尽早将整个锐龙AI 300系列处理器布局全部完成。

全新架构登场：Zen 5+RDNA 3.5+XDNA 2

了解了锐龙AI 300系列处理器的基本规格和命名后，我们来看看有关该处理器架构方面的内容。

宏观架构：多种新模块、新核心的综合体

AMD锐龙AI 300系列处理器采用单芯片设计，产品代号为“Strix Point”。Strix Point采用台积电TSMC N4P生产工艺，这一点和锐龙9000系列桌面处理器相同。我们在介绍锐龙9000系列桌面处理器的文章中也简单介绍了TSMC N4P工艺。

TSMC在N4P工艺的宣传中提到，N4P工艺基于N5工艺开发，采用更多EUV光刻层，“P”的意思是代表其工艺倾向性为性能优先，整体相比N5工艺可比条件下提高大约11%性能，相比原始的N4则提高了6%。能耗比方面，相比N5，N4P提高了22%，整体面积相比N5缩减了6%左右，非常适合使用在高性能处理器的生产制造上。

▲AMD锐龙AI 300系列处理器代号“Strix Point”，这是它的宏观架构图。

Strix Point整体核心面积大约为232.5平方毫米，相比上代产品也就是锐龙8000系列移动处理器的178平方毫米大了不少，这意味着Strix Point的整体性能的提升将会很可观。缓存方面，Strix Point由于核心数量增多，带来了最高达12MB L2缓存和24MB L3缓存，这也是其核心面积大幅度增加的原因之一。

▲Zen 5架构的设计目标

从整体架构来看，Strix Point内部整合了CPU、GPU、NPU以及大量的功能模块，比如视频处理、图像显示、PCIe控制器、内存控制器、电源控制器等，因此整体结构是相当复杂的。AMD给出的结构示意图显示，整个Strix Point包含了4核心8线程、16MB L3缓存的Zen 5核心以及8核心16线程8MB L3缓存的Zen 5c核心。另外还有8个WGP的RDNA 3.5 GPU、32个推理引擎的 XDNA 2 NPU、视频加速单元、音频处理单元、显示控制、系统总线、安全单元、无线连接单元等。

在对外连接方面，Strix Point支持128bit的LPDDR5 7500MT/s或者DDR5 5600MT/s的内存，对外支持16个PCIe 4.0通道，支持4个显示输出流，支持8个USB，其中2个USB 4、1个USB-C 3.2、2个USB-A 3.2 Gen 2以及3个USB-A。另外还有I2C总线、SPI和eSPI、GPIO等功能模块。值得注意的是，上述结构、单元和模块中，除了Zen 5架构已经在锐龙9000系列桌面处理器上使用之外，RDNA 3.5架构和新一代NPU架构也是首次发布。

▲AMD通过Zen 5架构衍生出了大量不同定位和类型的产品

在这里要特别提及一下Strix Point的CPU部分。Strix Point核心内置12个CPU，其中4个为Zen 5经典核心，另外8个为Zen 5c紧凑核心，后者为紧凑型优化版本，和AMD在Zen 4以及Zen 4c上所做的应该如出一辙。在Zen 4c上，AMD通过高密度紧凑型设计、精简模块和工艺布局，带来了核心面积35%的缩减，同时综合性能没有明显降低，功耗表现和性能功耗比则相对应变得更好了。我们将在后文的CPU微架构方面进一步讨论Zen 5和Zen 5c的内容。

Zen 5和Zen 5c：同构混合核心设计方案

AMD在Strix Point上采用全新的Zen 5架构，我们在之前的锐龙9000系列桌面处理器的介绍中详细分析了Zen 5架构的改进，在本文中我们简单总结一下。AMD针对Zen 5的前端、执行、后端等部分都做了设计改动，比如Zen 5架构在前端部分采用全新的下一代分支预测器，其带来了零开销（Zero-Bubble）条件分支预测功能，结合更大的TAGE分支预测器，能够实现整体运行效率的提高。在解码能力方面，Zen 5前端采用了2个4宽度的解码器，每周期最多可以实现8个x86指令的解码。SMT模式下，每个解码器匹配一个管道。

▲Zen 5目前拥有更大、更宽的调度和执行单元。

▲Zen 5的整体微架构设计一览

整体来看，Zen 5相比Zen 4，整体架构做出了巨大的改进和调整，尤其是浮点部分、前端部分的改进尤为巨大，这意味Zen 5在性能表现方面相比Zen 4有相当大的提高。AMD给出了一张表格用于对比Zen 5相对于Zen 4的变化，可以看出主要是整体架构变得更宽、更深、更多，最终带来了Zen 5相比Zen 4 16%的IPC提升。

接下来再来看看有关Zen 5c的内容。Zen 5c是AMD设计的面向高密度计算的紧凑型核心。AMD公布的数据显示，Zen 5c相比Zen 5，每个核心面积大约减少了25%。AMD目前尚未公布如何缩减的，但是从现有技术角度考虑，应该还是采用了高密度版本的工艺库、减少了大量为高频率设计的器件再加上较小的缓存，多管齐下达成了该目的。两者的基础频率一致，最高频率Zen 5可以运行到5.1GHz，Zen 5c则只有3.3GHz。

▲Zen 5微架构的前端优化内容

▲Zen 5相对Zen 4对比，改进可谓是方方面面。

具体到产品来看，AMD给出的示意图显示，Strix Point的L3缓存为16+8共24MB配置，4个Zen 5核心共享16MB的L3缓存，而8个Zen 5c核心则共享8MB的L3缓存。这样一来，对Zen 5c来说，由于L3缓存和最高频率更低，因此在实际使用中更侧重兼顾能效，整体吞吐能力、ISA支持等又完全一致。

因此，Zen 5c应该更适合后台应用以及多线程情况下提高整体吞吐能力，提升能效的可扩展性。不过可以看出的是，由于Zen 5核心和Zen 5c核心分别属于两个不同的“区块”，因此数据在Zen 5c和Zen 5之间转移的时候，延迟应该会增大，这意味着需要在任务调度方面做好优化。对4个Zen 5核心来说，L3缓存保持了和桌面处理器一样的每核心平均4MB，再加上4个Zen 5核心的频率也高达5.1GHz，这意味着大量高性能需求的任务在4个Zen 5核心上会得到极为出色的性能呈现，尤其是游戏等缓存敏感型应用，相对于桌面处理器差距更小。

▲Zen 5c相比Zen 5，更看重面积和功耗的改进。

AMD给出了Zen 5和Zen 5c的对比信息，我们总结一下。首先，Zen 5的设计目标是最高频率、最高性能，因此可以运行在高频率上，也拥有最大的单核心4MB L3缓存，或者4个核心共享16MB缓存。其次，Zen 5c在可扩展性能上进行了优化，主要是增加核心数量，因此在频率方面表现较低，电源效率更高，同时也降低了L3容量，毕竟缓存是最耗费晶体管的部件之一。

▲Zen 5的FP单元方面进行了大幅度改进，支持AVX-512。

最后，对整体软件调度来说。与英特尔的异构核心设计不同，由于Zen 5和Zen 5c是同构核心，不存在ISA方面的差异，因此软件调度上相对更简单，不存在类似于“大核心支持AVX-512，小核心不支持”这样的瓶颈，而且Zen 5c还支持SMT超线程技术。AMD可以在性能和效率方面进行调节，使得最终呈现的效果更为稳定和可靠。不过针对不同核心的任务调度而言，是否有更大延迟以及是否需要进一步优化，还需要一段时间才能了解更多细节。

Zen 5c面积更小，在能效比上表现比Zen 5更好，但AMD暂时未提供更多的细节，因此我们不知道在同频率下，Zen 5c相对于Zen 5会有多少能效比的提升。不过AMD在推出Zen 4c的时候，曾经做过和Zen 4的能效对比情况，可以看出，当时在20W以下，Zen 4c的能效比已经超过了Zen 4，性能还更高。相同设计思路的Zen 5c表现应该也是类似，期待更多细节。

▲Zen 5带来了一些新的ISA指令集支持，主要是AI计算相关内容。

另外，在ISA方面，Zen 5相对前代产品还加入了包括MOVDIRI/MOVD64B、VNNI/VEX、VP2INTERSECT、PREFETCH之类的新指令集，其中部分是针对AVX-512设立的，其余主要用于AI计算等。另外还有一些异构拓扑和PMC虚拟化方面的新指令。

RDNA 3.5：最强集显更进一步

除了CPU微架构，AMD在Strix Point上还启用了全新的RDNA 3.5架构的GPU。有关这个架构，AMD也给出了一些信息。在整体规模上，Strix Point中集成的GPU模块更大，包含1个模块、有8个WGP，总计1024个流处理器，32个AI加速单元和16个光线追踪加速单元。渲染后端方面，RDNA 3.5目前增加至4个，拥有16个ROP单元。

▲RDNA 3.5在架构改进上的三大目标

Strix Point的GPU规模相比前代产品大幅度增加，性能也自然大幅度提升。在2.9GHz频率下，Strix Point的GPU能够带来11 TFLOPS的FP32吞吐能力，比前代产品Phoenix的算力提高了大约30%。

▲AMD针对RDNA 3.5的架构改进的解释

在架构改进方面，RDNA 3.5带来了纹理子系统的更新，拥有包括纹理采样率翻倍、点采样加速等功能，这意味着整体画面的纹理质量会有更好的呈现。着色器子系统带来了2倍的差值速率和数值比较速率，这使得高质量画面的细节呈现更为出色。此外，新架构还在着色器SALU和VGPR方面进行了一些改进。光栅化方面，则带来了批量处理功能，提高了硬件效率。在内存管理方面，RDNA 3.5目前支持更优秀的内存压缩技术，尤其是搭配LPDDR 5使用，能够带来性能的提升和更好的效率。

▲RDNA 3.5呈现出更好的能耗比

AMD给出了一些测试数据，比如在3DMark中。Strix Point相比上代产品在同为15W TDP的情况下，3DMark Time Spy成绩提升了32%，Night Raid成绩提升了19%，这已经相当令人满意了。

不过还是要提一句，如果将Strix Point配备在全功能或轻薄类型、不配置独立显卡的笔记本电脑中，其集成GPU性能在入门独显水准之上，满足日常3D功能即可，性能和续航兼顾是其诉求点，不可能要求一个低功耗设备拥有高性能独显的性能和规模。因此如果是游戏玩家的话，可能需要考虑AMD之后推出的Zen 5架构的高性能移动芯片。

XDNA 2架构：规模更大、能效更出色

AMD在移动SoC上一个显著的特点就是加入了NPU这样专为AI计算设计的核心。从第一代锐龙7040系列开始到第二代锐龙8040系列，再到现在的Strix Point也就是锐龙AI 300系列处理器，已经发展到第三代AMD AI PC处理器产品了。

▲XDNA架构整体设计比较成熟了，AMD在多款产品上都有应用。

Strix Point的NPU单元架构上进行了更新，之前的产品采用的是XDNA架构，现在全新的NPU采用XDNA 2架构，新的架构规模更大、能效比更高，在移动设备中的使用体验和性能表现更令人期待。

▲XDNA 2相比XNDA在内部架构上进行了调整，规模也更大了。

AMD给出了一些XDNA 2在架构上的变化。首先是整体架构针对生成式AI的支持更为全面和丰富，AMD也在软件优化上做了一些工作，包括Stable Diffusion等模型，新的处理器都予以了优化和支持。其次，新的NPU算力大增，其AI算力在INT 8下最高可达55 TOPS。

▲XDNA 2是首个在PC平台上支持块浮点技术的NPU架构。

XDNA 2还带来了“块浮点（Block FP16）”的支持，这个技术是在耗费8位计算的算力和获取相应速率的情况下，计算结果接近16位计算，这将会使得AI计算在速率和精度上不用再二选一，而是能够“两个都要”。值得一提的是，AMD是首个为NPU加入块浮点技术的厂商。

▲除了性能外，能耗比方面XDNA 2也有显著提升。

第三是相比上代产品，XDNA 2拥有2倍的并发空间流以及1.6倍的片上缓存。这里的并发空间流是指AMD XDNA的计算方式，并非传统2D的计算方式，AMD称其为空间流。实际从计算单元角度来看的话，XDNA 2对应的NPU在AI引擎方面拥有32个单元，比上代多了12个。每个AI引擎中的MAC数量是上代产品的2倍，这也是XDNA 2拥有2倍并发空间流的数据来源。缓存方面，更多的片上缓存意味着整体计算效率更高。

▲在数据格式支持方面，XDNA 2也非常强大。

最后，XDNA 2架构增加了对非线性函数的支持，增加了稀疏计算相关的功能。在电源方面，XDNA 2针对每列计算单元都实现了电源门控，再加上工艺制程以及设计的改进，总计带来了2倍的性能功耗比提升。综合以上，使其成为目前AI算力最强的NPU。

新的架构、新的探索：AMD在移动设备上的一次跃进

本文对AMD锐龙AI 300系列处理器的型号命名、技术和架构方面的改进进行了解读。至于性能表现，由于本款处理器已经正式发布，并且我们也已经对其进行了测试，因此本文我们就不针对AMD给出的性能数据一一解读了。如果希望了解处理器性能的读者，建议查看我们的评测文章。

总的来说，锐龙AI 300系列处理器是AMD近几年来在移动处理器上最重磅的更新和最大的改进。在锐龙AI 300系列处理器上，我们看到AMD从宏观架构层面到CPU微架构、GPU微架构、NPU微架构方面都进行了大刀阔斧的革新，包括GPU、NPU在内，有的改进甚至首次出现在移动平台。

▲AMD锐龙AI 300系列处理器增强了AMD在AI PC方面相比竞争对手的优势。

CPU微架构方面，Zen 5和Zen 5c的混合核心搭配也是首次在全系产品中出现，上代产品中我们只在中端的锐龙5系列和入门的锐龙3系列产品中看到了Zen 4和Zen4c核心的搭配。这些升级改进带来的结果也非常明显，就是能效比飙升以及对时下火热的AI的迅速跟进与支持。

目前搭载锐龙AI 300系列处理器的笔记本电脑已经上市，从市场定位来看，锐龙AI 300系列处理器正在抢先攻占高端的轻薄本和全能本市场，这也正是英特尔Lunar Lake所针对的市场，近日已经官宣9月发布。因此，我们很快会看到AMD和英特尔在市场掀起新的竞争。作为消费者，我们又可以在激烈的竞争中挑挑选选，得到更多实惠，值得期待。

AMD锐龙AI 300系列处理器：全面焕新、大幅提升的AI性能解读

AMD锐龙AI 300系列处理器：全面焕新、大幅提升的AI性能解读相关教程

热门推荐