首页 / 行业

为什么历代AMD显卡在ROP单元数量上都非常保守？

2020-11-19 10:25:00

当NVIDIA基于新一代Ampere安培架构的GeForce RTX 30系列显卡发布之时，几乎在所有玩家的内心都默默的宣判了AMD的死刑。

因为此前在流处理器数量相同的情况下，同时代的NVIDIA显卡性能是远强于AMD显卡，就算是RDNA构架也不能难幸免。RX 5700 XT无法战胜拥有相同2560个流处理器数量的RTX 2070 Super，前者是7nm，后者是12nm。

新一代RTX 3090一上来就宣告拥有10496个流处理器，带来的震撼可想而知！至于传说中的RDNA2，很早之前大家就知道了，它最多拥有5120个流处理器。恐怕那时没人会觉得RNDA2会威胁到RTX 3090，甚至RTX 3080都可以高枕无忧。

不过如同Zen3处理器带给大家的震撼一样，10月29日发布的RDNA2 GPU的实际性能表现几乎超出了所有人的预料！

RDNA 2虽然是RDNA架构的更新版本，并不是完全重新设计。但在RDNA原有的基础上，RDNA2性能提升1倍，能效提升至少50％，ROP单元翻倍，完整支持DX12 Ultimate等技术特性，支持硬件光线追踪。

可以发现整体布局没有太大变化，当然各个功能模块都是调整优化过的，而最突出的，一是增加了独立的Infinity Cache高速缓存，二是在每个计算单元内加入了专用的光追加速器Ray Accelerator。

至于RDNA 2架构的底层细节，比如说计算单元的变化，AMD这次没有给出更多资料，只是简单提到了几点，包括精简TLB以降低延迟、重新设计32位像素流水线并支持HDR格式、优化几何分派与曲面细分、全方位精细时钟门控、频率树分离与门控、最小化数据转移、重新平衡流水线、高性能库等等，但没有任何图示。

以下是RDNA2构架新技术解析：

1、Smart Access Memory （SAM）显存智取技术

在游戏运行的时候，CPU是不能一次性访问全部显存的，比如RTX 3090有24GB显存，而CPU只能访问其中的256MB。于是有大量数据会回到内存后给CPU处理器完成后再转移到显存，此时不仅浪费了带宽也造成了无谓的资源浪费。

Smart Access Memory （SAM）可以让搭载AMD 500系列芯片组在搭载Zen3 CPU和RDNA2 GPU的时候，让Zen3 CPU可以完整访问全部显存，而且带宽还是PCIe 4.0的速度，理论上最多可以让游戏性能提升13%。

2、Ray Accelerator单元

在RDNA2构架中，加入了硬件光追单元Ray Accelerator！与NVIDIA的完全专用RT Core相比，RDNA2的Ray Accelerator紧密集成到了RNDA2的CU之中，并可以共享很多在光追中通常未被充分利用到的现有HW。

这是AMD放出的RNA 2光追渲染效果图，可以看到RDNA2实时光线追踪效果与传统光栅化渲染的差别。

AMD声称，相比于软件方案，RDNA 2架构的硬件加速光追性能，可以提升10倍之多，同时给出了部分游戏的实际性能，2K分辨率下《使命召唤：现代战争》可以跑出95FPS，《孤岛危机重制版》可达90FPS，《战地5》能有70FPS。

3、全局Infinity Cache

在大容量三级缓存的加持下，Zen3的IPC性能获得了巨大的性能提升。如今AMD将这个理念带入了GPU领域。

传统的GPU构架中，一般只有1.5~4MB的缓存，RDNA2除了4MB的L2缓存之外，还加入了128MB的全局Infinity Cache缓存，所有的CU单元均可以访问。

AMD Infinity Cache 作为一个巨大的带宽放大器，其有效带宽可以达到256 位 16 Gbps GDDR6 显存的 4 倍。在Infinity Cache的带动下，512GB/s带宽的RX 6900 XT的性能表现足以媲美936GB/s带宽的RTX 3090。

4、Fidelity FX超分辨率抗锯齿技术

针对NVIDIA DLSS深度学习超采样抗锯齿技术，AMD也提出了超分辨率（FidelityFX Super Resolution），简称FSR。目前这个技术正在开发中，不久之后会在新驱动中提供支持

历代AMD显卡在ROP单元数量上都非常保守，最顶级型号的GPU最多就只有64个ROP。这一次AMD非常的激进，RX 6800 XT直接就配备了128个ROP，也是GPU历史上第一款拥有128个ROP的显卡。
责任编辑:pj