首页 / 行业
聚焦 | 什么是AI芯片“存储墙”的解决方案?
2019-06-18 15:12:00
在2016年威海参加中国体系结构年会的时候,孙所也说了一句调侃的话:“现在的AI很火,大家都往那边去,没有人太关心体系结构了,我要告诉那些追AI热点的,它都死了三回了!” 的确,作为从小学马列的中国人,我们最熟悉螺旋式上升的概念。对于计算和I/O来讲,和中国经济调控一样,都是“ 水多了加面,面多了加水”螺旋式上升。
Google在2017年发布了TPU V1之后,现在已经有越来越多的AI startup的芯片出现,大家基本上都是用标准的Resnet50,Googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,AI芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在AI在准确率和性能上都超过了。对于AI的芯片来讲,有一个指标也是大家讨论比较多的。Roofline model
Y轴是P,代表算力,用来FLOP/s来表示,现在新出的AI ASIC往往在FLOP/s并不发力,因为从功耗比的角度上,算力肯定不是越高越好,而且大家都很难高过老黄的核弹。
代表了一个特定的计算平台的peak performance,就是最大算力。
就是特定的计算平台的I内存/O带宽,这个和该计算平台使用的DDR类型有关。
X轴是I,代表计算强度,就是在一个Byte上的计算量。因为对于一个特定的平台,我可以知道它的最大算力和带宽,我们就可以知道它的最大的计算强度。
因此,和图上显示的一样,在点(Imax,),这个计算平台达到了完美。在它的左边,说明memory受限,在它的右边说明计算受限。
因此,对于我们之前分析的Alexnet这个网络,我们就知道了它的总的计算量就是:
层 | 内存访问量 | 计算量 |
Conv1 | 770235 | 105415200 |
Maxpool1 | 430368 | |
Conv2 | 1057632 | 223948800 |
Maxpool2 | 273152 | |
Conv3 | 1057792 | 149520384 |
Conv4 | 1521792 | 112140288 |
Conv5 | 1036160 | 74760192 |
Maxpool3 | 61696 | |
FC1 | 37766144 | 37748736 |
FC2 | 16789504 | 16777216 |
FC3 | 4102096 | 4096000 |
SUM | 65021158 | 724406816 |
因为对于每一次访存都是32位的Float Point,因此整个内存的占用就是 260MB左右,而计算量是724MFLOPs,因此Alexnet的计算强度就是724/260=2.7 operation/byte。
对于一个特定的平台,比如老黄家的新的GTX2080Ti 系列来讲:
对于计算性能,先不管老黄加各种Tensor Core,RTcore,从CUDA Core本身来讲,他是100TLOP/s,
它的内存带宽如下:
因此,作为2080Ti, 它的Imax就是166Operation/Byte.
可能到这个,就可以看出,对于Alex的2.7 来讲,远远没有达到2080ti的计算强度,主要是受限于内存带宽了。
在Google的TPU中,有一个图经常被大家引用。
大家基本上可以看到,google的Imax差不多在1000左右,基本上没有什么网络可以完全用满TPU的peak performance。
怎么办,内存带宽的解决方案就是HBM,HBM2, HBM3不断加大带宽。记得在2017年的CNCC上,谢源教授讲,他在2010年左右提出了HBM的概念,他很快就看到了AMD,Nvidia以及Xilinx和Intel都在芯片上使用了HBM,证明了这条道路的正确性。他认为目前应该在AI芯片上摆脱这种”水多了加面,面多了加水“,in-memory 计算应该是下一个方向。
这个就引出了在Memory+会议上来自平头哥的段立德博士的topic,”Processing Near or In memory for deep learning".
最新内容
手机 |
相关内容
梦芯科技独立北斗芯片模块MXT2721
梦芯科技独立北斗芯片模块MXT2721隆重发布,芯片,北斗,模块,能力,导航,支持,梦芯科技是一家致力于研发和生产半导体产品的高科技公司从概念到生产的自动驾驶软件在环(Si
从概念到生产的自动驾驶软件在环(SiL)测试解决方案,测试,解决方案,自动驾驶,传感器,评估,车辆,自动驾驶软件在环(SiL)测试是一种在计算微软Ignite 2023技术大会:人工智能
微软Ignite 2023技术大会:人工智能转型,技术驱动变革,人工智能,趋势,智能,数据隐私,企业,解决方案,人工智能(Artificial Intelligence,A深度详解一体成型贴片电感在电路中
深度详解一体成型贴片电感在电路中应用的特点,详解,结构,噪声,芯片,稳定性,精度,体成型贴片电感(Molded Chip Inductor)是一种常见的什么是NFC控制器,NFC控制器的组成、
什么是NFC控制器,NFC控制器的组成、特点、原理、分类、常见故障及预防措施,控制器,分类,模式,移动支付,数据,信号,NFC(Near Field Com重庆东微电子推出高性能抗射频干扰
重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片,芯片,推出,算法,抑制,音频,信号,重庆东微电子有限公司最近推出了一款高性能写flash芯片时为什么需要先擦除?
写flash芯片时为什么需要先擦除?,擦除,芯片,充电,初始状态,存储单元,数据,Flash芯片是一种非易失性存储器技术,用于存储数据并实现固华为公开半导体芯片专利:可提高三维
华为公开半导体芯片专利:可提高三维存储器的存储密度,专利,存储密度,存储器,芯片,存储单元,调整,华为是全球领先的信息与通信技术解