首页 / 行业

华为最强自研NPU问世!麒麟810“抛弃”寒武纪

2019-06-22 12:02:00

“能效高、算子多、精度高”，华为消费者业务手机产品线总裁何刚用一句话总结了自研达芬奇架构给最新麒麟810芯片带来的变化。

6 月 21 日，在 HUAWEI Nova 5 系列新品发布会上，最大的亮点之一当属华为发布的麒麟 810 全新人工智能手机芯片，这是首款采用华为自研达芬奇架构的手机 AI 芯片。

去年 10 月，华为推出达芬奇架构的云端 AI 芯片昇腾 Ascend 910 和昇腾 Ascend 310 后，首次将达芬奇架构落地至终端芯片的 NPU，同时这也意味着，他们在 NPU 中抛弃了寒武纪 IP。

最新的麒麟 810 了采用业界最先进的 7nm 工艺制程，相比 8nm 工艺，能效提升 20%，晶体管密度提升 50%，这让它成为目前全球第三款采用该尖端工艺的手机 SoC 芯片，也是华为继麒麟980 之后推出的第二款 7nm 手机 SoC 芯片。

近年来，随着端侧AI高速发展，手机厂商对芯片的适配性和灵活性提出更高要求，而华为对此的探索处于一路领跑状态。

2017年，以麒麟 970 为代表的芯片首次采用独立NPU神经网络处理单元，业内也开始探索端侧人工智能应用。2018 年，麒麟 980 采用双核 NPU，进一步提升了端侧 AI 算力，带来 AI 人像留色、卡路里识别等丰富的 AI 应用。

此次，最新麒麟 810 再次领跑业界，首度采用华为自研达芬奇计算架构，再度提升端侧 AI 的性能，并且首次将旗舰级的 AI 性能在中高端手机中落地。

达芬奇架构是华为在 2018 年推出的全新自研AI计算架构，针对 AI 计算特点进行设计。不同于以往的二维运算模式，达芬奇架构以高性能 3D Cube 计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，激发端侧 AI 的运算潜能。另外，麒麟 810 芯片具有端侧能效业界最优的 AI 运算单元。

根据 ETH Benchmark 测试，麒麟 810 NPU跑分 32280 分，远超骁龙 710（6556 分）、骁龙730（13908 分）和骁龙 855（25428 分）。

对于麒麟 810 搭载华为自研的达芬奇架构，最直接的受害者是寒武纪，因为麒麟 970 第一代的 NPU 用的是寒武纪架构，但实际上，华为要在手机 AI 芯片搭载自研架构早在意料之中，只是很多人可能没想到落地速度来得如此之快。正如徐直军此前所说，“寒武纪的（IP）也很好，但是它无法支持我们的全场景，我们需要从云、到端、到物联网终端的人工智能设备，因此我们要创造性地打造一款新的架构。而达芬奇架构能够解决极致的功耗与极致的算力需求。”

按照这个势头，麒麟 810 应该只是开始，我们有理由相信，无论是 600 系列还是 900 系列，未来也会很快走向全定制化架构，华为移动计算生态将进一步扩大

以下从 CPU，GPU，拍照和通信方面的变化介绍麒麟 810 芯片：

CPU 方面，麒麟 810 采用全新系统级 AI 调频调度技术，2+6 大小核架构，即搭载两个基于Cortex-A76开发商用的大核，针对移动终端的使用场景进行深度优化，以及六个 Cortex-A55 小核实现能效升级。

据华为方面介绍，麒麟 810 全新 2+6 能效架构将提供更加精准的调度层次，让 CPU在游戏、购物等重载场景，以及社交、浏览网页等轻载场景下灵活适配，大大降低 CPU 在实际应用场景中的功耗，实现更持久的续航和更流畅的操作体验。

GPU 则升级到 Mali-G52 定制，支持 Kirin Gaming+ 技术，游戏实力全面升级，通过系统级 AI 调频调度技术、60fps 高性能及 HD 画质和 GPU 负载优化全面升级游戏体验。

具体而言，AI 调频调度技术能够实时学习帧率、流畅度和触屏输入变化，预测手机任务负载，动态感知手机使用过程中存在的性能瓶颈，及时进行调频调度，预测准确性比传统预测方法提升 30% 以上；GPU 的系列优化技术，可减少重复指令及 GPU 过载，并加快 CPU、GPU 和内存之间的数据传输速度；HD 游戏特效优化可以提升游戏画质、清晰度、明暗对比度等，带给游戏玩家更接近真实世界的游戏体验。

拍照方面，麒麟 810 集成细节增强（DE）模块，支持最新一代自动白平衡算法（AWB）和 AR特征点云计算加速，ISP 性能和算法双提升，这将解决夜景照片出现的噪点和过曝问题，提升画面的细节处理能力和降噪效果。

通信方面，麒麟 810 延续旗舰芯片的通信能力，支持双卡双 VoLTE，让手机的双卡同时保持 4G 在线，将有效防御伪基站的骚扰，有效降低手机信号回落至 2G 网络的风险。

此外，麒麟 810 推出自研中间算子格式，算子数量多达 240+，支持Tensor, Vector, Scalar，更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型，大幅增强华为 HiAI 的兼容性，易用性，以加速更多 AI 应用落地。

麒麟芯片华为寒武纪