首页 / 行业
一块晶圆等于一颗芯片!全球最大WSE-2处理器发布!7nm,面积达826 mm2
2021-04-23 09:00:00

不知大家是否还记得去年英伟达发布的A100 GPU,作为V100推出三年后的又一大计算卡,其性能较V100提升了20倍,英伟达更是称其为最大的7nm芯片,面积达到826 mm2。而初创公司Cerebras则在近日发布了第二代Wafer Scale Engine(WSE-2)芯片,夺下了7nm下面积最大芯片的宝座。
WSE-2 芯片/ Cerebras
从2015年到2020年,全球在训练大型模型上的计算已经到了30万倍,AI的限制更像是运算能力的限制,而不单单只是应用和创意。验证一个猜想和训练一个新模型可能会花上数周乃至数月的时间,Cerebras的WSE-2旨在解决这些影响创新速度的问题。
一块晶圆 =一个芯片
WSE-2与A100面积大小对比 / Cerebras
WSE-2从上一代的16nm工艺替换为7nm,尽管面积不变,但新制程的密度优势使其晶体管数量翻倍,达到了26000亿,AI核心数更是增加至85万个。Cerebras是在参数简介上直接对标英伟达的A100,与826 mm2 的A100相比,46225 mm2的WSE-2是前者的56倍。WSE-2片上内存为40GB,是A100的千倍,内存带宽更是做到A100的上万倍。WSE内含85万个专为AI应用优化的稀疏线性代数计算(SLAC)核心,非常适合神经网络运算。
Cerebras也指出内存也是计算中重要的一环。就拿上面提到的A100来说,A100只有40MB的L2 cache,却有着40GB的HBM2内存,但这种图形处理器的缺点就在于这种显存往往是片外内存,而且速度太慢,延迟过高。而WSE-2的40GB内存则是均匀分布在AI核心上,且带宽可以达到20PB/s。
其实早在去年的HotChips大会上,Cerebras就已经透露过这个85万AI核的新处理器,但由于一些延误,他们没法及时在去年发布。Cerebras联合创始人Andrew Feldman在近期采访中提到,与客户合作了一年之后,他们汲取了一些经验教训,并将其整合进了新的AI核心中去,因此这一推迟很可能是由于对AI核心微架构的改进。
以往一个晶圆需要切割成多个芯片,经过封装后再作为处理器上市售卖。而Cerebras的解决方案是晶圆级集成技术,直接利用一个晶圆的最大面积来生产单一芯片,不过考虑到目前矩形芯片依然是效率最高的选择,自然不可能直接拿整个圆形晶圆来制造芯片,Cerebras也从一块晶圆中选取了最大的正方形。虽然从12英寸晶圆的面积来看,制造一个WSE-2只用到了2/3的面积,但与芯片的售价相比,哪怕这些边角料被浪费,损失也只是沧海一粟而已。要知道Cerebras卖给匹茨堡超算中心的两台基于WSE-1的系统,可是从中获利近500万美元。
基于WSE-2的AI计算平台
但更强大的芯片放在一个老旧的系统里并非一定能实现全部的性能,反而可能会凸显出原有系统的瓶颈,比如通信结构、芯片I/O、电源和散热等等。这就像是拿法拉利的引擎放在大众车里,也跑不出前者的速度一样。
CS-2散热系统 / Cerebras
基于WSE-2、Cerebras的系统以及软件平台,Cerebras也推出了新一代深度学习系统CS-2,来突破系统上的限制。这么强大的性能自然需要强大的供电,CS-2采用了9+3的冗余供电配置来驱动WSE-2。但这样的供电自然也面临着散热上的挑战,Cerebras在CS-2内部运用了一套水冷散热系统,用水冷来对WSE-2散热,再由风冷来降低水温。与此同时,CS-2的空间占用并不大,这个26英寸高的机器仅仅占用15U的机架空间,虽然大于英伟达的HGX A100系统,但考虑到性能的提升,这点空间占用还是可以接受的。
CS-2 系统/ Cerebras
据Cerebras透露,WSE-2和CS-2都将于今年第三季度推出,而CS-2的价格也将从CS-1的2到3百万美元涨到“几百万”美元的不具体数字。
小结
尽管Cerebras的WSE-2是一个性能怪兽,但它的应用面并没有A100那么广,更像是面向小众市场。就拿WSE-1的一些客户来说,多数在进行一些生物及医学研究,比如癌症治疗、药物发现等,且多用于超算中心与国家实验室,比如上面提到的匹茨堡超算中心和阿贡国家实验室。而英伟达的A100则可以用于各种AI和HPC应用,这也是Cerebras目前的解决方案没有突破的,但考虑到Cerebras的定位也不是为了做到全面覆盖,专注于一个市场反而是Cerebras能做到如此优秀的原因所在。
其实最值得去突破的仍是这种晶圆级集成的技术,固然芯片设计厂商希望从单一晶圆中获取更多的芯片,获取更高的利润,但这种纯粹追求性能的芯片反而适合如今不少Power-hungry的应用。话虽如此,实现这类芯片的良率同样是一大挑战,并不是每家公司都像Cerebras一样在WSE-2上实现100%的良率的。
本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。
最新内容
手机 |
相关内容
重庆东微电子推出高性能抗射频干扰
重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片,芯片,推出,算法,抑制,音频,信号,重庆东微电子有限公司最近推出了一款高性能写flash芯片时为什么需要先擦除?
写flash芯片时为什么需要先擦除?,擦除,芯片,充电,初始状态,存储单元,数据,Flash芯片是一种非易失性存储器技术,用于存储数据并实现固华为公开半导体芯片专利:可提高三维
华为公开半导体芯片专利:可提高三维存储器的存储密度,专利,存储密度,存储器,芯片,存储单元,调整,华为是全球领先的信息与通信技术解新一代8通道脑电采集芯片研制成功,
新一代8通道脑电采集芯片研制成功,铠侠与西部数据已中止合并谈判,合并,芯片,脑电,新一代,通道,产品,近日,一项重要的科技突破在全球范加特兰毫米波雷达SoC芯片赋能室内
加特兰毫米波雷达SoC芯片赋能室内安防新应用,毫米波雷达,芯片,用于,稳定性,目标,感知,室内安防是一个重要的领域,随着技术的进步和人电容式触摸按键屏中应用的高性能触
电容式触摸按键屏中应用的高性能触摸芯片,芯片,位置,触摸屏,能力,响应,用户,电容式触摸按键屏(Capacitive Touch Key Screen)是一种常台积电1.4nm,有了新进展
台积电1.4nm,有了新进展,台积电,行业,需求,竞争力,支持,芯片,近日,台积电(TSMC)宣布将探索1.4纳米技术,这是一项令人振奋的举措,将有望为E低耗能,小安派-LRW-TH1传感器通用板
低耗能,小安派-LRW-TH1传感器通用板,一块板即可连接多种传感器!,传感器,多种,连接,一块,通用,接口,小安派-LRW-TH1传感器通用板是一款