首页 / 行业

AI、游戏与通用计算，国产GPU的定位

2022-11-11 09:31:00

从去年国产GPU开始陆续冒尖后，今年各大厂商的动作明显更大了一些，新品频繁面世。但从这些新品的规格和技术来看，其实每家公司对于自己GPU产品的定位都是不同的，我们就选几家国产GPU厂商来分析一下他们的产品定位以及未来技术趋势。

摩尔线程

作为近期刚发布了新品的国产GPU厂商，摩尔线程确实收获了不少关注，他们最新的显卡MTT S80也一度成了热点话题。MTT S80作为一张游戏显卡，搭载了MT-春晓芯片核心，功耗最高250W，单精度浮点算力高达14.4TFLOPS。

不仅如此，MTT S80也是业内首个PCIe 5.0的显卡，支持双向128GB/s的传输带宽。更重要的是，哪怕标榜的是游戏显卡，MTT S80依然支持3D图形渲染、智能多媒体、物理仿真及科学计算和AI计算加速的全功能应用。
CleanShot 2022-11-10 at 17.25.49@2x

MTT S3000 / 摩尔线程
除了MTT S80以外，春晓这一芯片也为摩尔线程带来了面向服务器GPU市场的新产品，MTT S3000。单从芯片规格上来看，MTT S3000与MTT S80都用的是完整的MT-春晓芯片，都内置了4096个MUSA流处理单元，但前者将主频提高到了1.9GHz，FP32也因此提升到了15.2TFLOPS。

为了让MTT S3000更适用于服务器市场，摩尔线程也将其显存提升至了32GB，并增加了对虚拟化的支持，可对GPU弹性切分，MTT S3000也从MTT S80的主动散热改为了被动散热。

到了AI上，摩尔线程的MUSA架构和软件栈为MTT S3000提供了训推一体的支持。除了训练支持TensorFlow、PyTorch、飞桨等常见框架外，摩尔线程还在推理上打造了自研AI推理引擎TensorX，甚至推出了兼容CUDA源码的方案。

可以看出，摩尔线程不仅已经在游戏GPU市场有了弥足珍贵的进展，同样想在服务器市场实现突破，甚至是通过兼容CUDA来吸引更多的客户，这其实也是英伟达这样的GPU巨头主攻的两大方向。但兼容或对标CUDA一法，AMD、英特尔这样的国际大厂也都在推进，却也都是各自为战，考虑到其中涉及的开发投入和难度之大，或许在软件生态上走合作之路会更适合。

芯动科技

在使用GPU这类产品的过程中，支持不同的图形与计算API对于开发者来说尤为重要。而芯动科技的风华GPU在这API上的支持尤为亮眼，目前已经完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0，这也为风华GPU的开发生态奠定了基础。

芯动高性能接口IP / 芯动科技
虽然其产品性能本身已经足够亮眼，但风华GPU真正最大的优势在于芯动自研高性能接口IP上，包括高带宽内存（GDDR6x、HBM3）、高速SerDes（PCIe 5.0、CXL 2.0）和高清多媒体（HDMI 2.1、eDP 1.4）等等，同时这些IP也实现了对先进工艺的覆盖。而且芯动科技已经在最近推出了跨工艺、跨封装的Chiplet互联解决方案Innolink Chiplet，同时兼容UCIe Chiplet。

对于高性能GPU来说，如果说核心IP决定了性能上限的话，那么这些接口IP就决定了GPU能发挥出多少实力，以及是否能在未来的服务器市场大放异彩。目前看来，风华2号的定位是一款低功耗的GPU产品，更适合用于智能座舱之类的应用中，而风华1号则是面向服务器市场，尤其是像云游戏、云手机之类的场景。

可从规格来看，这两款一年以内发布的产品其实都还没有用到PCIe 5.0之类的新接口技术。芯动科技已经在8月公开表示，风华3号也已经基本完成研发，还支持光线追踪技术，据了解该产品和风华1号一样也是面向服务器/数据中心市场的，但或许还是会侧重在云游戏等商用场景上，相信我们会在未来的发布上看到风华3号更强大的性能表现。

壁仞科技

虽然壁仞科技最近遇上了一些麻烦，但不可否认的是，其BR100系列通用GPU芯片确实在性能上达到了极高的水准。与上面提到的两个GPU不同，BR100虽然是通用计算GPU，但明显更适合于AI和科学计算这样的高性能计算场景，所以BR100并没有去做DirectX和Vulkan这样的图形API支持。

这点从BR100的芯片设计上也能看出，单个BR100由16个流处理簇构成，每个都采用了16个执行单元的设计，而每个执行单元包含16个流处理核心（V-core）和一个向量引擎（T-Core）。V-Core作为SIMT处理器，支持到FP32、FP16、INT32、INT16，用于通用计算。

而T-core在SPC级别的2.5D GEMM架构下，可以极大加速常见的AI运算，诸如MMA矩阵乘加和卷积等。T-Core不仅支持FP32、TF32这些主流数据精度外，还原创定义了TF32+数据精度，相较TF32在实现更高精度的同时，也提高了吞吐性能。

从软件平台上看，壁仞科技的BIRENSUPA不仅支持PyTorch之类的主流框架，也有壁仞自研的推理加速引擎。从BIRENSUPA平台框图中的应用定位来看，壁仞科技的主要发力方向看来还是多媒体、自动驾驶和推荐系统等重AI的场景。

壁仞100P OAM模组 / 壁仞科技
壁仞科技也是在一众国产PCIe产品中，唯一推出了OAM模组的厂商，壁仞科技也和浪潮合作推出了“海玄”这种OAM服务器，实现了8PFLLOPS的峰值算力。不过也正是因为实现了如此高的性能，似乎招致了一些恶意阻碍，但这也恰恰说明了他们走的方向是对的，如果他们能走出这一困境的话，无疑能在服务器市场大有作为。

定位趋势计算通用

首页 / 行业

AI、游戏与通用计算，国产GPU的定位

最新内容

相关内容

热门文章

推荐文章

标签云

猜你喜欢