首页 / 百科
Groq发布全球首款每秒1000万亿次运算的AI加速卡
2020-02-01 00:00:00
2016年底,谷歌TPU团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司,是进军AI加速卡的第100家、是商业化推向市场的第2家,是首家达到每秒1000万亿次运算的公司。如果做对比,那么它是当前NVIDIA最强大显卡性能的四倍。
The Groq Tensor Streaming Processor (TSP) 要求每个内核达到300W,而且他们已经成功做出来了。而且更幸运的是,已将其从劣势转变为TSP的最大优势。
这款TSP是一块巨大的硅处理器,几乎只有矢量和矩阵处理单元以及高速缓存,因此没有任何控制器或后端,编译器具有直接控制权。TSP分为20个超级通道。超级通道按从左到右的顺序构建:矩阵单元(320 MAC),交换单元,存储单元(5.5 MB),矢量单元(16 ALU),存储单元(5.5 MB),交换单元,矩阵单元( 320个MAC)。
指令流(只有一个)被馈送到超通道0的每个组件中,其中矩阵单元有6条指令,开关单元有14条指令,存储单元有44条指令,向量单元有16条指令。每个时钟周期,单元执行操作,并将数据移到超通道内的下一个位置。每个组件都可以从其相邻邻居发送和接收512B。
超级通道的操作完成后,它将所有内容传递到下一个超级通道,并接收上方的超级通道(或指令控制器)拥有的所有内容。指令始终在超级通道之间垂直向下传递,而数据仅在超级通道内水平传输。
在ResNet-50中,它可以在任何批处理大小下每秒执行20,400个推理(I / S),推理延迟为0.05毫秒。Nvidia的Tesla V100可以以128的批量大小执行7,907 I / S,或者以1的批量大小执行1,156 I / S。
但有了 Groq 的硬件和软件,编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处理速度更快,而且可预测。
开发人员可以在 Groq 芯片上运行相同的模型 100 次,每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说(如自动驾驶汽车),这种计算上的准确性至关重要。另外,使用 Groq 硬件设计的系统不会受到长尾延迟的影响,AI 系统可以在特定的功率或延迟预算内进行调整。
这种软件优先的设计(即编译器决定硬件架构)理念帮助 Groq 设计出了一款简单、高性能的架构,可以加速推理流程。该架构既支持传统的机器学习模型,也支持新的计算学习模型,目前在 x86 和非 x86 系统的客户站点上运行。
根据官方发布的新闻稿,该TSP已经作为Nimbix Cloud的加速器面向部分客户开放。
来源:cnBeta
最新内容
手机 |
相关内容
逆变器技术对新能源汽车市场增长的
逆变器技术对新能源汽车市场增长的重要性,市场,新能源汽车,逆变器,控制,高效率,能和,随着全球对环境保护和可持续发展的关注不断增从概念到生产的自动驾驶软件在环(Si
从概念到生产的自动驾驶软件在环(SiL)测试解决方案,测试,解决方案,自动驾驶,传感器,评估,车辆,自动驾驶软件在环(SiL)测试是一种在计算悄然席卷企业级SSD市场的RISC-V主
悄然席卷企业级SSD市场的RISC-V主控,市场,企业级,性能,功耗,支持,低功耗,随着计算机技术的不断发展,企业级SSD(Solid State Drive)市场深度详解一体成型贴片电感在电路中
深度详解一体成型贴片电感在电路中应用的特点,详解,结构,噪声,芯片,稳定性,精度,体成型贴片电感(Molded Chip Inductor)是一种常见的芯片的变革机会在哪里,算力芯片如何
芯片的变革机会在哪里,算力芯片如何突围?,芯片,机会,研发,能和,用于,计算,CPU(Central Processing Unit,中央处理器)作为计算机的核心组光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计FPGA学习笔记:逻辑单元的基本结构
FPGA学习笔记:逻辑单元的基本结构,结构,单元,逻辑运算,数字,信号,结构单元,FPGA(Field-Programmable Gate Array)是一种可编程逻辑器件芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动