• 1
  • 2
  • 3
  • 4

首页 / 行业

AI革命时代的HPC系统和芯片发展趋势有哪些?

2023-06-07 23:33:00

AI革命时代的HPC系统和芯片发展趋势有哪些?

当众厂商纷纷宣布加仓大模型AI投资时,有人肯定,新一轮AI大赛鹿死谁手还不好说,但高性能计算(HPC)高算力芯片、高带宽互联芯片和AFE8406IZDQ存储芯片在系统中肯定是赢家。那么,如何发展高性能计算才能更好地适用新一波人工智能发展浪潮呢?

目前,以ChatGPT为代表的生成型人工智能技术风头正在全球科技巨头之间掀起新一轮的技术竞争。在很多人眼里,ChatGPT的发布可能被认为是新科技革命的引爆点,而这种引爆点的发生离不开背后的高性能计算和大数据基础设施。

基于OpenAI企业的GPT-3系列语言模型,ChatGPT可以实现,GPT(Generative Pre-trained Transformer)即生成式预训练转换模式,是一种基于因特网可用数据训练的文本生成深度学习模式。

为实现与人类相比的语言互动和语言组织能力,GPT-3的参数达到1750亿次。相比之下,2018年推出的GPT-1参数为1.17亿次,而2019年推出的GPT-2参数为15亿次。量变最终会导致质变和参数量的快速膨胀,这对支持GPT运行的硬件系统提出了越来越高的要求。对于GPT这样的大型模型,没有高性能硬件支持是无法实现和部署的,更不用说随着新数据的涌入。

所以,当众厂商纷纷宣布加仓大模型AI投资时,有人肯定,新一轮AI大赛鹿死谁手还不好说,但高性能计算(HPC)高算力芯片、高带宽互联芯片和存储芯片在系统中肯定是赢家。

HPC和关键芯片的发展趋势

那么,如何发展高性能计算才能更好地适用新一波人工智能发展浪潮呢?人工智能将如何影响高性能计算本身?有以下几点可以讨论。

第一,高性能计算和人工智能相辅相成。人工智能的每一次快速发展都离不开硬件基础设施的应用,快速发展的AI对硬件基础设施提出了更高的要求,鼓励芯片或系统性能翻倍。

在Open AI 2018年发布的报告中,从2012年到2018年,人工智能训练对计算能力的要求超过30万倍,计算能力的平均需求每3.5个月翻一番,给芯片和硬件系统的升级带来了很大的压力。由于按摩尔定律性能的升级速度,AI训练对芯片特性的要求无法满足增长速度的要求。

新思科技为打破性能瓶颈,提供了SysMoore开发方法,并根据整个系统的优化,有效地释放了性能增长的潜力。

相反,AI能力也在提高芯片开发效率,帮助开发者制作出更好的芯片。例如,根据使用新思科技的DSO.Ai工具,开发者将HPC处理器的运行频率提高到100Mz,而开发时间缩短了一半,整个团队的输出效率提高到原来的三倍。

第二,HPC芯片性能提升方式从平面扩展转变为立体增长。多芯片系统(Multi-Die System)正在成为HPC芯片的主要发展潮流,从HPC的系统角度来看,采用先进封装技术将不同芯片封装在一起的方式,比PCB互连能大幅提升系统性能,因而HPC芯片在实现上,2.5D封装与3D封装的设计将越来越多。

而且因为完美的接口IP可以直接使用芯粒(Chiplet)多芯片系统的开发方式与测算核心进行拼凑,也能有效保证良率,加快开发效率。

为了实现高带宽、低延迟、低功耗、无差错工作的片间接口,多芯片系统的片间接口技术对于数据中心和边缘设备的高效可靠的数据传输尤为重要。

采用先进的封装技术对芯片进行立体层叠,为芯片性能提升开启了无限可能,但也需要更强的EDA工具、设计方法和IP来解决多芯片系统中的异构集成、互联和封装问题。另外,随着数据中心互联技术的发展,开发者还必须具备硅光等专业知识和技术。

新思科技的3DIC Compiler是一个高效实用的多芯片系统设计完成平台,可以为各种不同工艺制造的芯片拼接层提供完整的开发环境。

例如,在启动多芯片系统项目时,开发人员必须使用3DIC Compiler来划分多芯片系统的功能,并将整个设计分解成多个芯片。接下来,可以使用3DIC Compiler进行初始板图规划和基于封装的信号完整性分析,从而实现更好的片间连接性能和更好的功耗性能。

第三,边缘计算设备将不断发展迭代。数据中心出现了人工智能训练,但边缘设备是推理或数据采集不可或缺的。

在人工智能技术中,对边缘设备的延迟要求越来越高,希望进一步降低边缘设备的数据处理和传输延迟,这就需要提高边缘设备主芯片的数据传输速度和效率。但是边缘设备很多,所以如果能降低芯片的功耗,对整个云加边缘系统的节能减排会有很大的贡献。

因此,边缘芯片必须具有强大的模拟和验证工具、功耗和热分析功能、智能的设计和布局实施以及一系列关键性能和接口的认证IP模块。新思科技可以为开发者提供从边缘到云端可用的基础IP、接口IP、安全IP和处理器IP,优化实现高性能、低延迟和低功耗,同时支持先进的工艺技术。

第四,考虑到信息安全、稳定性和运营成本,HPC芯片必须管理整个生命周期。HPC系统规模巨大,运营成本高,可以处理PB甚至ZB等数据,实时运行大型模型。一旦这个级别的系统出现异常,数字会惊人,因为业务暂停造成的经济损失。

因此,一个好的HPC系统应该具有非凡的可靠性、易用性和服务能力。要做到这一点,系统视角可以通过冗余设计来提高稳定性,但更重要的是从芯片等级来降低故障率。

为了降低芯片等级系统的故障率,用到新思科技的硅生命周期管理(Silicon Lifecycle Management,SLM )的理念。

SLM根据内置IP收集芯片运行中的各种参数,将芯片运行数据传输到指定位置进行分析和跟踪,使系统能够实时监控每个关键芯片的运行情况,为系统建立芯片的身体状况跟踪图,从而更好地预测和预防故障,从而降低故障率,最大限度地减少故障损失。

第五,可持续发展是HPC产业长期繁荣的基础。由于规模巨大,HPC系统能耗惊人,专家预测,到2030年,仅数据中心用电量将占到全球总用电量的3%至7%,不少区域甚至抵制建设数据中心,以免因其耗能巨大而导致当地环境恶化。所以,如何有效解决HPC/数据中心能耗和散热问题,已经成为其能否可持续发展的关键。

在新思科技为HPC/数据中心提供的完整解决方案中,节能减排的概念随处可见。例如,根据低功耗设计方法和提高功耗的IP核,可以提高HPC芯片的整体功耗,从而降低HPC系统的能耗,有效降低系统的功耗。然而,新思科技的各种高效开发、模拟和验证工具大大减少了开发一个芯片的整体时间和资源占用,这是对可持续发展的贡献。

总结

随着互联网和人工智能技术的发展,人工智能产业的必要性日益增加。大数据和大数据模型的应用对人工智能系统的性能和能耗提出了更高的要求。只有从芯片等级的角度优化人工智能系统,人工智能系统的性能才能真正不断提高,能效才能不断优化,才能走上真正可持续发展的道路。





有哪些发展趋势系统芯片时代封装

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢