对追求超高性能或者对内存、扩展性能等特性有需求的工作站用户或专业用户而言,AMD的锐龙线程撕裂者系列处理器基本上是目前市场上唯一的选择,毕竟对手的HEDT平台自酷睿i9-10980XE、X299平台后就很长时间再无更新,至强处理器的核心数量也有明显不足。而在2022年3月,AMD发布的锐龙线程撕裂者Pro 5000WX系列处理器中,AMD就将单个插槽的处理器核心数量提升到了64核、128线程,把专业平台的性能推向了一个高峰。
AMD特别邀请《微型计算机》记者前往AMD美国奥斯汀总部发布了新一代锐龙线程撕裂者处理器,AMD奥斯汀总部离奥斯汀主城其实还有相当一段距离,上图中,远处的大厦轮廓就是奥斯汀主城区。“7171 Southwest Parkway, Austin, Texas 78735”就是AMD奥斯汀总部的地址。
在一年后的2023年10月,凭借着强大的创新与执行力,锐龙线程撕裂者Pro 5000WX系列的“接班人”按时到位。AMD特别邀请《微型计算机》记者前往AMD美国奥斯汀总部发布了其新一代AMD锐龙线程撕裂者Pro 7000WX系列、锐龙线程撕裂者7000系列处理器,以及新的Radeon Pro系列专业显卡,其AMD锐龙线程撕裂者处理器的最高单插槽处理器核心数量攀升至惊人的96核心、192线程。那么,全新的锐龙线程撕裂系列处理器有哪些型号和新的技术特性、新的Radeon Pro系列又有怎样的独特之处呢?今天本文就和大家一起来解读AMD线程撕裂者和Radeon Pro全新产品的配置、架构和相关性能信息。
AMD奥斯汀总部园区、办公大楼一览
在处理器发展历史上,AMD对Chiplet架构的应用绝对是值得重点铭记的经典技术应用案例。AMD通过Chiplet技术和处理器架构更新,极大地提高了单插槽处理器核心数量上限。除了针对企业级用户的EPYC处理器外,借由强大的架构、技术优势,AMD在2017年推出了首代锐龙线程撕裂者Ryzen Threadripper处理器,一上市就凭借强大的规格和极高的性能得到了工作站和专业用户的青睐。随后AMD又推出了多代线程撕裂者产品,无一不是占据了当时的处理器性能之王宝座。从市场角度来看,锐龙线程撕裂者整个产品线很好地填补了从HEDT平台到企业级平台之间的鸿沟,让工作站与专业用户也能够以较低的成本享受到企业级产品的技术,实现了从消费级到企业级产品的平滑过渡。
时间来到了2023年,AMD当前在市场上最重要的产品是以Zen 4架构为核心的锐龙系列处理器,以及EPYC 9004系列企业级产品。在锐龙线程撕裂者这条产品线上,AMD依旧依靠的是Zen 3架构的线程撕裂者5000系列。时不我待,终于在2023年10月中旬,AMD发布了全新的线程撕裂者系列,包括锐龙线程撕裂者Pro 7000 WX以及锐龙线程撕裂者7000系列。除此之外,AMD还发布了新的Radeon Pro W7900和Radeon Pro W7800,我们一起来了解一下这些产品的情况吧。
AMD的锐龙线程撕裂者系列产品目前分为Pro系列和普通系列。其中Pro系列面向的是工作站用户,普通系列面向的是顶级专业用户。AMD目前在售的锐龙线程撕裂者产品是5000WX系列。AMD给出的数据显示,上一代锐龙线程撕裂者Pro 5995WX这样的64核心处理器,面对竞争对手的英特尔至强W9-3495X 56核心处理器就存在最多37%~28%的性能优势。
对Pro系列的用户来说,他们对性能等需求非常巨大,进行的也是科学计算、建筑设计、模拟处理以及AI训练等工作,因此普通消费级产品的性能难以满足他们的需求,而真正的企业级产品配置和购买又过于麻烦。并且,整个工作站市场还在不断增长。
AMD给出的例子显示,虚拟产品、汽车仿真、老化基础设施改进模拟以及AI行业,在2023年到2032年的10年内,将拥有至少10%的增长率,诸如AI的年化复合增长速度可以达到19%,容量日渐增加,市场前景还是非常巨大的。AMD还给出一个数据,那就是工作站设备的性能从2017年到2023年增长了11倍,市场产品也覆盖了从台式机到笔记本电脑的各种形态,使用这种产品的企业也包含了包括阿斯顿马丁、EA、EPIC、FOX Sports等诸多不同行业和类型在内的企业。
鉴于此,虽然目前AMD的产品相对于竞争对手还有一定优势,但是考虑到市场增长速度以及用户需求,AMD还是决定发布全新一代Zen 4架构的线程撕裂者新品。
最高96核心:AMD锐龙线程撕裂者Pro 7000WX/7000系列登场
对AMD来说,锐龙线程撕裂者系列处理器的问题不在于市场竞争力或者性能不足,而在于如何超越自己的前代产品。在这一点上,AMD给出了线程撕裂者Pro 7000WX系列的三个重要特点。
一是新的产品将最高拥有96个Zen 4内核,支持最多192个线程,这是目前x86处理器所能提供的单插槽内拥有最多数量核心的产品,配合高频率,将带来史无前例的超高性能。
二是新的产品将带来最多128个PCIe 5.0通道,利用PCIe 5.0极高的带宽和超多的通道数量,能够带来极强的扩展性能。
三是提供了极高的安全特性和管理能力,能够为专业用户带来更好的管理特性和更出色的数据安全保护。
在更具体的一些性能指标上面,AMD给出了锐龙线程撕裂者Pro 7000WX对比前代产品在技术上的提升,包括整体架构从之前的Zen 3提升到Zen 4,IPC得以大幅度提升(后文还有详细解读),L3缓存数量提升至384MB,核心数量从前代64颗提升至最多96颗,线程数量也相应提升至192线程。频率方面是本次线程撕裂者Pro 7000WX的亮点,提升至最高5.3GHz,对如此核心规模的处理器来说,依然能达到5GHz以上的超高频率是非常难能可贵的,很多最高频率在5.0GHz以上的处理器,一般产品核心数量要少得多。另外还有整体互联规格从之前的PCIe 4.0提升至PCIe 5.0,带来了互联性能的翻倍提升等。
本次AMD推出了6款锐龙线程撕裂者Pro 7000WX处理器产品,其中最高端的产品是7995WX,96核心192线程,最高频率5.1GHz,基准频率2.5GHz,TDP 350W,其余还推出了64核心、32核心、24核心、16核心和12核心的产品。除了96核心的7995WX外,其余的产品核心数量完美对位上代产品。但是值得注意的是,整体Boost频率都超越了5GHz,32核心以及以下产品的Boost频率甚至达到了5.3GHz。相比之下,上代产品的最高频率为4.5GHz,比新一代产品低了不少,相对应的上代产品TDP只有280W,新一代产品的功耗有所增加,达到了350W。
AMD副总裁兼客户渠道业务总经理David McAfee先生在会上发布了锐龙线程撕裂者Pro 7000WX/7000系列处理器
在这里需要注意的是7955WX和7945WX两款产品,这两款产品的核心数量为16个、12个,相比消费级桌面版本的锐龙系列处理器在核心数量上并没有显著优势,频率也更低一些,看起来似乎性能方面优势不够。不过线程撕裂者的特点在于极高的扩展性,最重要的就是128个PCIe通道,可以转接为任意想要的接口,相比之下消费级产品在这方面就显得乏善可陈了。
有关这一点,AMD也特别予以强调。AMD指出,针对AI计算等现在流行的计算需求而言,PCIe通道的规格和数量是非常重要的,比如AI计算需要更多的GPU,这些GPU又需要更多的PCIe插槽,因此128个PCIe插槽将带来极大的扩展性。另外,新的线程撕裂者处理器利用更多的PCIe扩展带宽,在云计算、AI边缘计算方面也将有不错的表现。
最后再来看看安全性方面的内容。作为Pro系列产品,锐龙线程撕裂者Pro 7000WX系列在安全性能方面表现显然不是普通消费级产品可以媲美的。AMD为这款产品首先是提供了专业级别的安全功能,以及安全管理工具等。针对企业级用户,锐龙线程撕裂者Pro 7000WX将获得18~24个月的安全支持,这也是消费级产品没有的特性。
在介绍完了有关锐龙线程撕裂者Pro 7000WX相关的信息后,我们再来看看有关线程撕裂者7000系列的相关内容。AMD认为,虽然线程撕裂者Pro 7000WX系列非常强大,但是还是有部分用户不需要那么强大的扩展能力或安全功能,比如线程撕裂者Pro 7000WX搭配WRX90主板芯片组组成的PRO平台,提供的8通道DDR5内存、128个PCIe 5.0通道以及安全管理特性等,因此,AMD也推出了不支持上述功能的锐龙线程撕裂者7000系列。
锐龙线程撕裂者7000系列将搭配TRX50主板芯片组组成新的HEDT平台。这个新的平台支持4通道DDR5内存,拥有最高48个PCIe 5.0通道,但不再支持Pro级别安全设定。从实际需求角度来说,HEDT平台的用户往往在数据安全和企业级部署方面没有那么敏感,同时在内存带宽、设备扩展需求上也没那么强烈,减少这些配置反而可以起到降低成本、提高产品市场接受度的目的,AMD在线程撕裂者7000系列上这样做也是合理的。
锐龙线程撕裂者7000系列由3款处理器组成,分别是锐龙线程撕裂者7980X、7970X以及7960X,最大核心数量也仅有64核心、32核心和24核心,最高频率为5.1GHz、5.3GHz和5.3GHz,TDP功耗值全部都为350W。至于之前人们探讨的线程撕裂者16核心的版本则不太可能推出,因为对专业用户来说,如果想选择16核心的处理器,锐龙9 7950X系列就是不错的选择。
当然,如果有HEDT用户特别喜欢超多核心处理器,AMD也特别提到,AMD TRX50系列芯片组也是支持线程撕裂者Pro 7000WX系列处理器的,因此玩家也可以购买诸如锐龙线程撕裂者Pro 7995WX处理器搭配TRX50芯片组,实现HEDT平台的96核心192线程,这可能是目前市场上能够实现的单插槽性能最强的x86平台了。不过AMD没有提及线程撕裂者Pro系列处理器在TRX50芯片组的平台上使用后,Pro系列的安全特性等究竟是否可以开启,目前来看大概率也是直接关闭的,其他的包括内存通道、PCIe通道等,应该也不可能拥有Pro系列的规格了。接下来让我们继续深入了解,来看看线程撕裂者7000全系列究竟为什么这么强。
全新架构搭配超多核心:解密线程撕裂者7000全系列强大之因
说起线程撕裂者7000全系列为什么如此强悍,AMD给出了三个原因:首先是强悍的Zen 4架构,其次是全面强化的SoC体系,最后则是极高的能效比。我们先来一个个解读。
Zen 4:13% IPC提升带来强大单线程性能
说起Zen 4架构我们都不陌生了。这个架构从2022年发布开始,就贯穿了AMD的消费级、企业级产品,无论是桌面的锐龙7000系列,还是企业级的EPYC 9004系列,以及今天我们要介绍的线程撕裂者7000全系列,都是基于Zen 4架构扩展而来的产品。
AMD的Zen 4架构是基于Zen 3架构改进设计而来。在Zen 4架构设计上,AMD的希望实现更高的性能、更低的延迟和更好的能效比。其中性能的提升来自于频率和IPC的提升;更低的延迟主要是提升了缓存的性能并且对整个架构的平均延迟进行了降低;能效比方面则通过新的设计、新的工艺以及将移动端的一些技术移植在桌面端而来,降低了整个CPU的动态功耗。
具体到架构来看的话,新的Zen 4架构在分支预测、Op缓存、指令排序相关窗口、整数或浮点寄存器、每核心更深的缓冲区、后端读取和加载等方面进行了优化,另外还加入了AVX-512指令集以及重新调整的每核心1MB、8-way L2缓存。
前端方面,分支预测部分被大幅度加强。AMD目前使用了一个更强有力的分支预测单元,每周期可以执行2次分支预测,此外,L1 分支目标缓冲区的容量提升了50%,来到了1.5K条目,L2分支目标缓冲区目前来到了更大的7K。在微指令融合为宏操作方面,Zen 4现在每周期可以执行9次操作。Zen 4还拥有更大的op缓存、更大的指令回写队列等,这些增大都能够在很大程度上提升处理器的前端性能。
执行单元部分,Zen 4没有带来有关执行单元数量的提升,而是持续增大重排缓冲区(25%至320条目),增加了浮点/整数寄存器的体积,整数从192增加至224,浮点从160增加至192,核心缓冲区更深了,来到了320条目。执行单元方面依旧是每周期10个INT和6个FP。
后端的读取和加载部分,Zen 4现在拥有更大的读取排序单元,更少的缓存端口冲突以及增大了50%的L2 DTLB。另外依旧拥有每周期3个内存操作,最多每周期3个读取和2个写入等。
缓存方面最明显的改变是每个核心的L2缓存翻倍到了1MB,这样可以降低CPU核心的未命中率并增加命中率,同时也降低了从L3以及内存读取数据的几率。但是由于L2缓存增大,因此延迟也相应提升,L2目前的延迟增加到了最多14个周期,L3延迟提升至最多50个周期。L3缓存方面Zen 4继承了Zen 3的改进,那就是每个CCD中的8个CPU核心共享32MB L3缓存,L3相对L2采用了包含式设计,也就是说L3中拥有L2的数据标签,这样一来可以更好地探测数据存储情况并快速查找信息。
在指令集方面,Zen 4实现了对AVX 512指令集的支持。Zen 4采用了2个AVX 256来合并执行一个AVX 512,而英特尔采用了独立的AVX512 SIMD核心。AMD的设计可以节省晶体管资源,并且在很大程度上不需要降低频率来运行AVX 512,但是当同时执行AVX2和AVX512的时候,则必须完成一个后再执行另一个。AMD表示,自己的AVX-512比之前的Zen架构多核心执行FP32的工作效能提升了30%。此外,现在Zen 4也可以实现对BF16数据格式的支持了,这是AI计算中新兴起的一种重要数据格式。
AMD还给出了有关Zen 4和Zen 3架构的性能改进情况。总的来看,Zen 4架构相对Zen 3架构,带来了大约13%的IPC提升。其中贡献最大的是前端的改进,其次是存储和加载部分,第三是分支预测部分,执行部分和L2部分的改进带来的性能增幅则相对较小。
全新的SoC架构:支持最多8通道DDR5和128通道PCIe 5.0
对AMD来说,Zen 4架构固然强大,但是要如何使用、组织如此强大的CPU微架构也是一个不小的难题,这就涉及到了整个处理器的SoC系统架构。AMD对锐龙线程撕裂者7000全系列的SoC系统架构也给予了详细解析,我们一起来看看。
拥有96颗核心的AMD锐龙线程撕裂者Pro 7995WX处理器,内部由12个CCD、中间的1颗IOD芯片组成。
首先来看整个锐龙线程撕裂者7000全系列的宏观结构图,从图中可知,完整版本的线程撕裂者7000将具有12个CCD,每个CCD有8颗CPU核心,12个CCD总计96颗CPU核心。所有CPU核心和外界数据的沟通交换都通过中央的IOD完成。IOD中布局了PCIe 5.0控制器、DDR5内存控制器、第三代Infinity Fabric以及安全处理器等。值得注意的是CCD的布局,12个CCD被平均分布在IOD左右,每侧6个,同时单侧的6个CCD也是上下各三个分布。
内部只有8个CCD的线程撕裂者7980X与拥有12个CCD的锐龙线程撕裂者Pro 7995WX
值得注意的是,目前给出的锐龙线程撕裂者宏观架构图对应的是Pro系列,一共12个CCD,而HEDT平台的锐龙线程撕裂者7000系列由于最多只有64个CPU核心,因此只布局了8个CCD。另外,对那些核心数量低于96个的线程撕裂者Pro系列处理器来说,比如64个核心的Pro 7985WX,应该也是只有8个CCD启用,并且这8个CCD应该是更靠近IOD核心的,远端的部分则由一个单纯的硅片进行占位。AMD在EPYC处理器上有类似的方案,也就是不一定都采用有功能的CCD,或者干脆就是硅片。至于不让其空置的原因,AMD解释最主要原因是整个处理器PCB面积太大,需要受力平衡。
接下来再来看看有关内存方面的设计。锐龙线程撕裂者Pro 7000WX系列处理器支持最多8个DDR5 5200内存通道,其峰值带宽为266GB/s(8chx8Bx5.2GTs),支持RDIMM,最大支持2TB内存等。
AMD在这里特别提到了内存的配置问题。在使用锐龙线程撕裂者Pro 7000WX系列处理器的情况下,内存被配置为2通道、4通道、6通道或者8通道。其中,系统默认的状态被称为NPS1,也就是8通道状态,用户可以选择NPS2(4通道),或者NPS4(2通道)等不同的状态。AMD认为给与用户更多选择,是权衡了延迟、带宽等多项因素的结果,用户可以更具自己的情况进行内存方面的配置。
在IOD和CCD的连接方面,Zen 4 CCD通过GMI3链接IOD。AMD的上一代线程撕裂者采用的是GMI2总线,其IO单元内部有8个GMI2总线端口,因此总计能支持8个CCD单元连接,每个CCD则拥有2个GMI总线,可以根据需要进行配置。在锐龙线程撕裂者Pro 7000WX系列处理器上,每个Zen 4架构的CCD还是具有2个GMI3总线,但是IO单元的GMI3总线端口数量则升级到了12个,因此可以最多连接12个CCD,也就是我们前文看到的12x8=96核心。
带宽和功耗方面,每个GMI3总线每周期可以实现32Bit的数据读取和16Bit的数据写入,消耗的能量是2pj/bit。带宽方面最高可以达到36Gbps,和FCLK的频率比值是20:1,最高可达1.8GHz。AMD宣称,GMI3的吞吐能力最高可达GMI2的2倍。
最后再来看看锐龙线程撕裂者Pro 7000WX系列处理器的IO配置方案。我们多次提到,本次最新的处理器最多可以提供128个PCIe 5.0通道,AMD还给了用户自由配置的方案,比如可以选择x16的配置,或者2个x8配置,或者4个x4、8个x2或者干脆16个x1,其中x1配置也可以转为其它接口使用,比如16个SATA接口等。不过每个高带宽PCIe通道最多只可以容纳9个设备,包含8个x1和1个x8配置。AMD还提到,目前新的产品所能提供的带宽拜PCIe 5.0所赐,比前代锐龙线程撕裂者高了90%以上。
在整体平台功能方面,AMD给出了锐龙线程撕裂者Pro 7000WX系列处理器搭配WRX90系列芯片组的整体搭配图。可以看到,CPU端可以提供的对外连接资源包括:
6个PCIe 5.0 x16通道
1个PCIe 5.0 x8通道
4个USB 3.2 Gen 2接口
4个SATA接口
HD Audio通道
2个由PCIe 5.0 x4通道转换的M.2 2280 SSD插槽
1个由PCIe 5.0 x4通道转换的M.2 2280 SSD或者SATA通道
1个由PCIe 5.0 x4通道转换的MCIO插槽
2个由PCIe 3.0 x4通道转换的M.2 2280 SSD插槽
同时,WRX90芯片组可以提供的对外连接资源包括:
1个由PCIe 4.0 x1通道转换的2.5G网络端口
1个由PCIe 4.0 x4通道转换的10G网络端口
1个USB 2.0 DASH header
1个未使用的PCIe 4.0 x4通道
1个由PCIe 4.0 x2通道转换的M.2 2230端口,可以用于WLAN或者蓝牙
2个USB 2.0 Header
4个SATA端口
2个USB 3.2 Gen 2 10Gbps端口
1个USB 3.2 Gen 2x2 20Gbps Type-C端口
2个USB 3.2 接口
2个USB 2.0
另外,根据AMD给出的锐龙线程撕裂者7000全系列平台示意图来看,锐龙线程撕裂者Pro 7000WX系列拥有最多12个CCD、8个DDR5通道和128个PCIe 5.0,对应的是启用了所有的内存控制器、所有的GMI3总线以及所有的SERDES单元。相应的锐龙线程撕裂者7000系列则只有8个CCD、4个DDR5通道和48个PCIe 5.0,对应的是只启用了4个DDR5内存控制器、GMI3连接也由于CCD变少而关闭了4个,另外2个SERDES单元对应的连接也直接关闭了不少,以降低PCIe 5.0总线数量。从这一点来看,锐龙线程撕裂者7000全系列产品使用的都是一样的IOD单元,只是通过屏蔽改变了部分功能。
最后再来看看有关能耗比方面的优势。AMD给出的信息包括,新的产品支持cTDP模式,也就是用户可以在BIOS中调节功耗;采用了动态链路宽度管理以及提高性能功耗比;在关键部位使用了动态电源管理,比如LCLK,FCLK,SOCCLK DPM等,还支持深度睡眠等功能;最后还支持了微软的S3深度睡眠功能。
在上述功能的加持以及整体架构设计、全新的工艺制程一整套解决方案的辅助下,AMD的数据显示锐龙线程撕裂者Pro 7995WX对比英特尔至强X9-3495X,单核心功耗最多降低了73%,渲染速度提升了最多2倍,能耗比最多提升了2.2倍,是目前能耗比最高的处理器产品之一。
性能大爆发:无敌最寂寞
锐龙线程撕裂者系列从处理器作为目前核心数量最多、功能特色最复杂的产品,其整体性能表现不但依靠于处理器本身的硬件架构,还在很大程度上依赖AMD和行业软件对CPU的优化,尤其是如何使用如此多的CPU核心以及CPU内部各种功能如何更好的配合行业软件发展等。好在现在的线程撕裂者系列处理器已经并非初代产品的吴下阿蒙状态,由于其产业地位和强势的性能表现,AMD和整个产业界逐渐形成了相互优化和相互匹配的正向循环。
AMD提出,为了更好地利用锐龙线程撕裂者7000全系列处理器的性能,他们提出了4个方面的性能优化,包括高效率利用所有的处理器核心、高效率利用Zen 4的架构和新增的指令集,高效率利用SoC架构以及针对AVX512的相关优化等。我们一个个来看。
首先是高效率利用所有的CPU核心。AMD提到很多应用计算资源耗费非常严重,可能需要数小时、数天才能计算完成,这就要求这类应用能够很好的针对处理器的优化,尤其是需要具有极高的并行性,比如3D渲染可以很好地分配在每一个CPU核心上进行,从而充分使用处理器的性能。不过,一些应用存在并行性方面的瓶颈或者问题,比如Silhouette Edge这类可以并行化但是尚未很好并行化的应用、H.264的编码这种具有结构序列化瓶颈的并行算法以及Adobe After Effects这种粗粒度并行化应用等,都需要双方配合做出很好的优化才能更高效率的执行,AMD也为其做出了相当多的努力。
AMD举了一个充分优化性能的例子,比如在CAD中,一些设计多边形边缘和网格模型的问题,传统计算采用单线程算法,速度很慢。AMD通过多线程优化,使用96核心的线程撕裂者处理器,在500万个面和700万个边缘的CAD模型计算中,最多实现了35倍的性能提升。
第二是有关Zen 4架构的相关优化。AMD目前带来了名为AOCL(AMD Optimizing CPU Libraries)的CPU优化库,拥有12个工业标准的数学库相关优化,能够使得科学计算和高性能计算在锐龙线程撕裂者处理器上拥有最好的性能表现。具体的库包括线性代数、密集矩阵计算、傅里叶变换、伪随机数生成、安全加密、无损压缩、缓存拓扑等等。
对于这一部分优化,AMD举了2个案例,首先是电磁仿真软件。ANSYS HFSS是一个常用的电磁仿真软件,具体的软件的内容我们就不多介绍了。通过AMD优化并采用AOCL库后,这款软件的在多种计算方面的性能得到了提升,最高可达51%。
另外,在有限元求解中,利用AOCL优化后,运行性能最高提升了2.8倍,大幅度缩短了求解时间。
第三再来看看有关SoC层级的优化。这部分内容主要是要求软件能够很好地使用缓存、内存子系统等,以避免数据不断的迁移所造成延迟和性能损失,另外很好的使用AVX 512也能够充分发挥系统性能。AMD进一步解释道,锐龙线程撕裂者拥有极高的L3缓存容量,每个CCD拥有32MB L3缓存, L3缓存总容量最高可达384MB,如果可以很好地使用所有缓存,尤其是利用AMD提供的三种线程绑定策略,应用程序将通过缓存容量获得显著的性能提升。
AMD举例说,在SOLDWORKS Plastics 2023 SP1软件中,由于更好地利用了AMD处理器的优势,因此整体性能提升了13%。
在Ansys Fluent中,如果使用AMD的线程固定技术并划分更多缓存给软件使用的话,最多可以带来12%的性能提升。
在内存优化方面,AMD还提到了一种特殊的优化方式。目前锐龙线程撕裂者的IOD会自动配置内存通道,默认为8通道,这样的配置会为单个线程提供最高的带宽和最低的延迟。当有多个线程的应用程序运行在不同的核心上时,用户也可以手动指定不同的内存控制器针对不同的核心或者线程,这将使得这些线程获得更低的延迟(虽然损失部分内存带宽)。
AMD的数据显示,诸如Ansys CFX这样的软件可以在将内存设置为NPS4双通道模式后,可以获得性能提升,最多达8%。
最后一个部分则是AVX-512的优化。目前AMD Zen 4架构和线程撕裂者7000全系列都能够提供针对AVX-512的支持。用户只要在软件中使用AVX-512并启用相关标识,处理器就会调用AVX-512单元进行计算,提供强大的并行浮点处理能力。
在了解完有关线程撕裂者7000全系列的所有信息后,我们来看看这两个系列处理器的性能情况。
首先是对比自家的上代旗舰产品:64核心的锐龙线程撕裂者Pro 5995WX,可见同为64核心的新一代锐龙线程撕裂者Pro 7985WX性能领先至少12%,最多实现了43%的性能提升。
在工作站相关性能方面,AMD锐龙线程撕裂者7000全系列处理器都能够通过架构更新、核心数量提升、内存带宽提升以及平台特性提升等为包括软件和科学、媒体和娱乐、设计和制造、建筑和工程等不同行业的不同应用带来显著的性能提升。
AMD使用线程撕裂者Pro 7995WX和7985WX对比了英特尔至强w9-3495X处理器,在不同的应用中,AMD的新产品最多可以带来相比竞争对手产品至少38%、至多223%的性能提升,AMD特别提到,无论是单线程还是多线程应用,锐龙线程撕裂者Pro 7000WX系列都拥有显著的性能优势。
在软件和科学方面,AMD解释道,目前行业趋势就是对AI部署和软件开发的需求增加,并且极大的地用了多线程能力,AI和ML都能够在多GPU上加速,用于训练的数据库也可能由于个人隐私等原因较为敏感。针对这些因素,AMD锐龙线程撕裂者Pro处理器能够支持超多线程并行处理,支持更大的内存容量以及内存带宽,支持更多的GPU并行,同时Pro级别的安全管理功能也有助于避免数据泄露。
在这方面,AMD依旧没有使用最顶级的96核心处理器,而是采用了64核心的7985WX对阵至强w9-3495X 56核心,测试显示AMD在Chromium中胜出28%,在Unreal Engine中大胜50%。
媒体和娱乐方面的情况也是类似的,比如对虚拟生产的需求、对仿真工具的使用需求以及开发工具对多线程的需求等,都带来了针对CPU多线程能力、核心数量、并行能力以及扩展性的要求。
这个时候AMD采用的了96核心的锐龙线程撕裂者Pro 7995WX对比56核心的至强w9-3495X,至少获得了9%的领先幅度,最多在Chaos V-Ray这样的光线追踪渲染中胜出了223%。
设计和制造方面,主要是设计市场在不断扩大,CAD的使用也在逐步增多,因此更多线程、更快仿真以及多任务、高频率的处理器就可以更为领先,AMD也恰逢其会,完全满足市场需求。
实际测试情况也是这样,在核心数量更少的情况下,32核心的AMD锐龙线程撕裂者也较36核心的英特尔至强W0-3475X带来了大约25%~45%的性能胜出幅度。
与此类似的还有在建筑、工程中,对算力、多核心、存储容量和安全性的要求一直在提升, AMD锐龙线程撕裂者Pro完美契合了市场的发展趋势和需求。
性能方面32核心的7975WX对比36核心的3475X,胜出了20%~52%不等,值得注意的是,这是AMD核心数量少于竞争对手产品、反而胜利的测试,这显示出AMD产品也拥有更强悍的单线程性能,并不只是依靠核心数量的优势取胜。
在加速方面,AMD还提到了CPU针对GPU在图形和计算方面的加速。AMD的CPU相比竞争对手产品,在Autodesk Maya以及GPU计算方面,都有显著的性能优势,这是AMD整体平台优势的体现。
AMD给出了六款锐龙线程撕裂者Pro处理器的性能提升幅度参考值。从这些数据可以看出,在图形渲染、Keyshot光线追踪、Ansys mechanical机械分析软件中,顶级的7995WX可以调用所有96颗核心,相对其他产品拥有明显优势。而在其他测试中,核心数不多不少,工作频率高的7985WX、7975WX拥有不错的表现。这显示了全新架构、超多核心以及更高频率的AMD锐龙线程撕裂者Pro 7000WX系列所拥有的显著优势。
对工作站用户而言,软件的兼容和优化也是很重要的一个方面,AMD这一次干脆列出了所有认证和优化过的软件列表,以方便用户查阅。可以看出,AMD线程撕裂者Pro 7000WX已经通过超过70%行业软件的认证和优化,能够为用户带来更为卓越的使用体验。
最后再来看看有关锐龙线程撕裂者7000系列处理器的性能预览情况。
AMD利用锐龙线程撕裂者7000系列最高端的64核心7980X对比了英特尔至强W9-3495X,在几乎所有的测试项目中,线程撕裂者7980X都轻松胜出对比产品至少4%,至多94%,显示出锐龙线程撕裂者7980X强悍的性能实力。
另外针对前代产品,AMD也给出了性能对比。在核心架构更新、频率更高且支持更多新特性的情况下,锐龙线程撕裂者7980X轻松战胜了前代5995WX,至少12%、至多46%的性能提升令人惊讶。如果你还持有前代产品的话,不妨更新至新一代锐龙线程撕裂者7000系列,应该会有显著的性能提升体验。
总的来说,借助于全新的 Zen 4架构,更大规模的SoC系统以及更高的频率等,AMD锐龙线程撕裂者7000全系列处理器都获得了相比上代产品更强的性能,和竞争对手的产品相比,在目前的数据看来几乎不存在什么劣势,只有赢多一些和少一些的差别。AMD在锐龙线程撕裂者系列上表现出来的技术实力以及最终的产品性能不但都达到了预期,甚至不少还数倍领先,的确令人一见倾心。
AMD锐龙线程撕裂者Pro 7000 WX以及线程撕裂者7000系列实物展示
在本次发布会现场,AMD还在其美国奥斯汀总部展出了锐龙线程撕裂者Pro 7000 WX以及锐龙线程撕裂者7000系列处理器,以及多台采用该处理器的DIY平台、OEM整机系统。
AMD锐龙线程撕裂者Pro 7995WX、AMD锐龙线程撕裂者Pro 7985WX、锐龙线程撕裂者7980X处理器,它们都采用sTR5封装,与基于Zen 4核心的EPYC 处理器类似,采用接近正方形的外观设计,相比以往的锐龙线程撕裂者处理器面积更大。
《微型计算机》记者在现场手持拥有8CCD的锐龙线程撕裂者7000系列处理器,靠后的则是旗舰:AMD锐龙线程撕裂者Pro 7995WX。
AMD展出的基于锐龙线程撕裂者Pro 7000 WX以及锐龙线程撕裂者7000系列处理器、TRX50主板搭建的DIY平台,可以看到不论是普通的风冷还是水冷、液氮极限散热,都可以驾驭这两类处理器。
为什么要用液氮展示?因为包括AMD锐龙线程撕裂者Pro 7995WX在内的处理器都具有超频能力,用户甚至只需要在RYZEN MASTER软件中打开PBO精准加速技术,就能对处理器超频,获得更高的性能。
让很多用户都希望获得,在一块主板上就能实现96核心、192线程的AMD锐龙线程撕裂者Pro 7995WX处理器CPU-Z截图。
DELL Precision 7875工作站
在发布现场,AMD与整机厂商还带来了采用锐龙线程撕裂者Pro 7000WX系列处理器的工作站整机,如这台DELL Precision 7875工作站,其最大特色是拥有不错的散热与供电设计,可以支持350W级的AMD锐龙线程撕裂者Pro 7995WX旗舰处理器,可支持使用两块300W级别的专业显卡,支持PCIe 5.0 SSD。
DELL Precision 7875工作站技术规格,最高可支持2TB内存,支持PCIe 5.0。
其内部配备了两块Radeon PRO专业显卡
这款工作站采用了优秀的散热设计。如它使用了硕大的6铜管直触式处理器散热器,内置多个散热风扇。包括机箱背板帮助处理器、硬盘散热的两个风扇,主板中部安装的帮助内存散热的DDR风扇。
DELL Precision 7875在内部配备了多个风扇
机箱前置面板配备了两个用于安装M.2 NVMESSD或SATA硬盘的FlexBay
DELL Precision 7875工作站强大的散热设计,可以保证AMD锐龙线程撕裂者Pro 7995WX旗舰处理器的96颗核心以100%的满载状态稳定工作。
HP Z6 G5 A工作站
HP Z6 G5 A工作站的主要技术特性,支持96核心处理器、3块独立显卡、8通道1TB内存。
HP Z6 G5 A工作站主要面向三个应用领域,媒体与娱乐、数据科学、产品研发,具体来说就是视觉特效制作、合成,动画制作、渲染,AI模型训练、数据分析、数据预处理,高级3D建模、生成式设计,数字孪生、计算机辅助工程等应用领域。
惠普在现场则带来了Z6 G5 A工作站,其特性仍是最高可使用96核心、192现场的锐龙线程撕裂者Pro 7995WX旗舰处理器,支持连接3块独立显卡,支持8通道内存,可使用1TB内存。
这款工作站的特点也是设计了多具风扇,并通过增加的空气进气口,以及超过20个温度传感器,有效控制整机内部的温度。
进一步拆解后,可以看到HP Z6 G5 A工作站为锐龙线程撕裂者Pro 7995WX旗舰处理器采用的还是传统的塔式风冷散热器,但通过有效的风道设计,多具外部风扇的辅助,可以有效控制处理器温度。
HP Z6 G5 A工作站提供了多个扩展接口,包括1个前置USB 3.2 Gen 2x2 20Gbps接口,4个前置可热插拔的NVMe设备仓、6个USB 3.2 Gen 1 5Gbps后置接口。
HP Z6 G5 A工作站结构与扩展能力示意图
同样,锐龙线程撕裂者Pro 7995WX旗舰处理器的96颗核心也能在HP Z6 G5 A工作站上以100%的满载状态稳定工作。
HP Z6 G5 A工作站配备了8通道DDR5 5200内存,其内存速率比其他采用DDR5 4800内存的工作站都要高一些,具备更好的内存性能。
最大48GB显存:全新Radeon Pro W7000系列登场
AMD本次发布的Pro系列产品不光只有CPU端的锐龙线程撕裂者Pro 7000WX系列,在GPU端,AMD也带来了Radeon Pro W7000多款专业显卡,我们一起来看一下。
Radeon Pro W7000系列的产品特性在于整体性能更高,单位价格性能也更为卓越,并且享受AMD Pro级别的专业驱动加成,在功能特性方面更是全球首款支持80Gb/s的DisplayPort 2.1端口的产品。
从市场端来看的话,AMD调研数据显示,目前用户在工作站方面最大的用途是占比43%的设计和CAD市场,另外则是18%的媒体和娱乐市场,其余的包括软件、金融、数据科学、医疗保健等等都低于10%。
因此,AMD的工作站系列GPU就更为注重媒体和娱乐、设计和制造以及建筑、工程的CAD方面的内容。
另外,在价格方面,目前市场占比最大的是350美元以下的入门级市场以及350~950美元的中端市场,至于950~1500美元的高端市场以及1500美元以上的顶级市场占比较少。AMD将通过不同产品的配比,实现对市场所有价格区间的全覆盖。
相对应的,AMD在高端市场方面布局了Radeon Pro W7900和Radeon Pro W7800两款产品,其中前者拥有48GB、384bit显存,96个CU和64TFLOPS算力,支持DP2.1和AV1编解码,TDP功耗控制在295W;后者则拥有32GB 256bit显存,70个CU和45TFLOPS算力,支持DP2.1和AV1编解码,TDP功耗控制在260W。这两款产品都采用了AMD最新的NAVI 31芯片和RDNA 3架构,整体性能和规格表现还是非常不错的。
AMD的性能数据显示,相比上代产品也就是W6800,新的W7900拥有1.5倍显存容量、3倍的数据输出能力(DP2.1)以及1.5倍以上的性能。其中,更大的显存可以容纳更大的3D模型,在多任务中表现更好同时也能够处理更大的RAW格式的媒体资源。另外更高的性能带来了各项计算效率的提升,对DP2.1的支持带来了更好的颜色、更高清晰度视频画面的支持。
针对新的DP 2.1,AMD特别提到其支持的UHBR 20,带来了高达77.4Gb/s的数据带宽,同时向下兼容UHBR 10。更高的带宽将带来更高分辨率支持、更多位数色彩深度支持以及更高的刷新率支持等,这对媒体工作人员来说是非常有意义的。
具体到性能对比方面,AMD使用W7900对比了英伟达的RTX 6000Ada和RTX A6000。从对比数据来看,虽然在绝对性能方面,W7900的性能相比RTX 6000Ada低了大约7%,但是价格还不到RTX 6000Ada的一半,可谓性价比绝对爆表,当然,W7900甚至W7800在性能对比数据中都比RTX A6000更高,同时价格也要更便宜一些,更为值得选择。
除了两款定位高端的产品外,AMD还有Radeon Pro W7600和W7500两款定位中低端的产品。这两款产品都拥有8GB显存,CU单元分别是32和28个,算力方面则分别为20TFLOPS和12TFLOPS,支持AV1编解码,端口方面同样支持DP2.1,功耗最低甚至来到了70W。在和上代产品的对比中,W7500略低于W6600大约20%,但是W7600显著胜出W6600大约19%,形成了比较好的高低搭配。
由于多款产品存在,AMD目前能够针对高端、中端和低端市场形成完整布局。在专业显卡的御用测试:SPECviewperf测试中,入门级市场的W6400相比英伟达的T600、T400表现出了极高的性能优势。中端市场的W7500、W7600也能够完胜对手的T1000和A2000。高端和顶级市场方面,W7800和W7900带来了更好的性价比,同时性能展示出了针对同价位产品的优势。至此,AMD在专业级GPU上形成了完整的竞争布局。
在发布会的最后,AMD还预告了一款全新产品的信息,也就是Radeon Pro W7700,这款产品将卡位W7800和W7600中间,依靠更高的性价比给竞争对手带来更大的压力,我们也期待这款产品尽早发布上市。
超越自己,再攀性能高峰
至此,本文针对AMD锐龙线程撕裂者Pro 7000WX/7000系列处理器以及Radeon Pro GPU的介绍就告一段落了。从这些处理器的技术规格、特性以及所展示出来的性能来看,至少在目前的市场上,这两大类处理器都拥有极强的竞争力。工作站方面,凭借96核心、64核心设计,AMD锐龙线程撕裂者Pro 7995WX、7985WX的多线程性能在市场上几乎没有同类可以与之竞争。在HEDT高性能平台上,同样对手早也没有产品可以应对,而AMD不仅能让普通电脑的处理器核心数量提升到64核心,更能借助TRX50主板的“超能力”,让普通电脑也能使用PRO 7995WX这类顶级工作站处理器,将处理器核心数提升到96核心、192线程。而且它们还均拥有PBO精准性能提升技术,并支持手动超频,对于没有搭建服务器条件,但需要强悍处理器性能的用户来说,AMD锐龙线程撕裂者Pro 7000WX/7000系列处理器的确就是市场上仅有的选择。
不仅如此,在之前相对弱势的软件和生态环境方面,AMD也取得了极为显著的进展,通过软件厂商的优化可以释放出锐龙线程撕裂者更多的性能,开始形成了自己正向循环、不断向好的产业生态体系。总的来说,由于暂时没有竞争对手带来的压力,AMD现在需要做的只有不断超越自己,才能不断攀上一个又一个性能高峰,为用户带来更强、更快、更卓越的产品使用体验。