首页 / 行业

大量的数据、有效的算法以及足够的算力结合，推动了人工智能的高速发展

2023-06-08 00:31:00

大量的数据、有效的算法和足够的计算能力的结合促进了人工智能的快速发展。但我们也必须看到一个严峻的现实：数据量越来越大，数据类型越来越多；各种算法日新月异，发展迅速；同时，计算能力的提高无法赶上，甚至落后于数据和算法的需求，特别是在计算场景对高带宽、低功耗的需求不断上升的趋势下。此外，随着芯片技术BR34接近极限，大规模商业新材料尚未实现，芯片架构的探索已成为提高芯片性能的最重要手段之一。

AI芯片的破“墙”运动

在传统的冯·在诺依曼架构中，由于计算和存储的分离，需要通过总线不断交换数据，从内存读取数据CPU，计算完成后，写回存储。随着深度学习的发展和应用，计算单元和存储单元之间的数据移动特别频繁，数据处理缓慢，能耗高已成为进一步提高计算能力效率的关键瓶颈。从处理单元外的存储器中提取数据通常是计算时间的数百倍。公共数据显示，整个过程的无用能耗约为60%-90%。

特别是在大计算能力场景下，存算分离带来的计算带宽问题已成为主要瓶颈。从智能驾驶等边缘高并发计算场景来看，除了高计算能力要求外，芯片的功耗和散热也有很高的要求。在传统架构的芯片设计中，内存系统的性能提升速度明显落后于处理器的性能提升速度。有限的内存带宽不能保证数据的高速传输，不能满足先进的计算需求。

行业面临的挑战非常突出，一方面需要克服“算力高墙”一方面，它坚持多年“存储墙”。只有创新架构，打破存储墙，降低成本，提高计算效率，才能进一步提高芯片计算能力，促进数据计算应用的发展。

在这一趋势下，将内存与计算更紧密地结合起来的存算一体化方案越来越受到关注，并逐渐从研究转向商业场景。

以数据为核心AI芯片路线

对于大算力AI就芯片而言，架构设计变得越来越明显“数据为核心”但对于不同技术路线的企业来说，有不同的实现方式。

HBM它是目前超大算力芯片常用的方案之一，可暂时缓解“存储墙”麻烦，但实现成本较高。以英伟达为在。AI大规模实施云市场GPU看，它是最先进的Hopper一方面，架构通过HBM另一方面，为了解决内存墙，增加了张量存储加速器(TMA)。整个Hopper架构GPU由8个图形处理集群组成（GPC)“拼接”组成，核心两侧是HBM3显存，拥有5120Bit位宽。此外，TMA提高了张量核心与全局存储、共享存储的数据交换效率。

该方法还需要先进的工艺和包装技术，基于先进的工艺和包装技术Hopper的最新一代GPUH台积电4100nm工艺，CoWoS2.5D包装技术，在设计能力、成本投入等方面都有很高的门槛。

看看三星的发布HBM2-PIM技术及近内存计算方案AxDIMM。HBM2-PIM其实是一块有计算功能的，在AI能提高系统性能的内存芯片，AxDIMM实现在每一个DRAM芯片旁边有一个单独的加速器逻辑，可以同时访问并增加访问带宽。这种设计理念也符合三星的业务计划，以确保其存储器在内AI时代继续保持先进。

存算一体化，方兴未艾

近年来，国内企业对存算一体化芯片的投入达到高峰。

根据非网络>分析，国内存算一体化芯片主要呈现以下趋势：自2017年以来，国内存算一体化芯片企业开始“扎堆”进入市场后，12家企业中有10家成立于2017年；，从技术路线来看，主要有近存计算和内存计算两种路线，可细分为模拟内存计算、全数字内存计算、类脑内存计算、类脑近存计算等；第三，存储类型相对多样化，包括闪存，SRAM，RRAM，ReRAM等等；第四，国产存算一体化芯片正朝着计算能力的方向发展，以2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020-ic/" title="2020型号">2020年成立的亿铸科技和后摩智能为代表。

技术路线的选择直接决定了产品的应用方向。近存计算的基本方法是将数据存储尽可能靠近计算单元，减少数据处理的延迟和功耗，主要包括多级缓存架构和高密度存储；内存计算是在内存中添加计算逻辑，并直接在内存中进行数据计算。该架构的数据传输路径最短，可以满足大模型的计算精度要求。

在存储器的选择上，有成熟的NORFlash，SRAM，DRAM等。FLASH它具有成本低、可靠性高的优点，但工艺工艺存在瓶颈；SRAM在速度方面有优势，但容量密度小，价格高，在大阵列运算中保证运算精度具有挑战性；DRAM成本低，容量大，但速度慢，需要电力不断刷新。新型存储集成存储器配备新型存储器PCRAM，MRAM，ReRAM等，其中ReRAM它在神经网络计算中具有优势，是一种发展迅速的新型存储器。

此外，还有模拟存算和全数字存算的区别。数字好还是模拟好？几年前，业界认为模拟计算在速度、能耗和工艺节点方面具有优势；近年来，模拟路线需要模数转换，精度容易受到信噪比的影响。数字计算具有精度高、环境容忍度高的优点。但是，无论是模拟还是数字，企业都需要根据现有的技术能力、应用场景、技术选择等进行权衡选择。

谁将胜出？

面向国际巨头AI目前，计算能力市场和存储技术处于领先地位。以电路/架构设计为背景的存算一体化初创企业将竞争核心集中在存算一体化上SoC芯片设计及相应IP核能力是一种更务实的做法。此外，从长远来看，差异化技术路线的演变也有利于产业的健康发展。

目前，整个行业对存算一体化芯片的研究仍处于探索阶段，迫切需要在技术成熟、典型应用、生态系统等方面进一步成熟，谈论哪种结构更早获胜。此外，存算一体化芯片的开发本身也涉及到复杂的产业链环节，需要从存储器到AI从芯片到编译器和算法的一系列技术能力也离不开强大的开发能力和生态建设能力。

写在最后

从事芯片开发多年的工程师可能会发现，计算能力的提高不是计算单元本身，而是传输带宽的限制。对于多年来的瓶颈，整合会计无疑是一条合理的道路。由于深度学习的繁荣，它也达到了适当的开发节点。

目前，根据主要玩家的市场规划，第一批量产存算一体化芯片大多是小计算能力和端侧应用。根据大计算能力数据中心和智能驾驶芯片，预计未来一两年将大规模生产。

在人工智能本身仍在探索应用场景的前提下，存算一体化的实施仍需与具体应用场景的具体分析紧密结合。存算一体化芯片产业真正成熟，需要不断积累，实现小计算场景的持续渗透，极端优化高价值场景；大规模生产计算场景，最终得到广泛应用。

人工智能算法数据存储器内存能力

首页 / 行业

大量的数据、有效的算法以及足够的算力结合，推动了人工智能的高速发展

最新内容

相关内容

热门文章

推荐文章

标签云

猜你喜欢