首页 / 行业

Fugaku超级计算机程序已实现100倍的速度提升

2021-12-28 09:26:00

在不到18个月的时间里，密歇根大学的一个团队采用GPU，为一个基于复杂数学的程序实现了20倍的提速。该程序为量子科学奠定了基础。

Vikram Gavini 的实验室以创纪录的速度，跨越了微观世界的一座重要里程碑。

这支由三人组成的密歇根大学团队创建了一个使用复杂的数学来深入观察原子世界的程序。该程序将推动许多科学领域的发展，以及多重领域的设计工作——从更轻的汽车到更高效的药物。

凭借 GPU ，该团队开放源码库中的代码在短短18个月内实现了20倍速度提升。

通往Summit的旅程

2018年年中，当该团队正准备发布一个在 CPU 上运行的代码版本时，他们收到了橡树岭国家实验室 GPU 黑客马拉松的邀请。全球最快的超级计算机之一—— Summit 就位于该实验室。

机械工程和材料科学教授 Gavini 表示：“我们当时的想法是看看我们能实现什么。”

该实验室的博士后 Sambit Das 参加了这场为期五天的活动。他认为：“我们很快意识到我们的代码可以充分发挥GPU大规模并行处理的能力。”

在活动结束前， Das 和另一位实验室成员 Phani Motamarri 将代码转移到 CUDA 及其库中，实现了5倍速度提升。这也让他们意识到，未来能实现的还有更多。

6个月内实现从5倍到20倍的速度提升

在接下来的几个月里，该实验室继续对该程序进行调优，使其能够对1万个镁原子中的10万个电子进行分析。到2019年初，该程序已经可以在 Summit 上运行。

随着 Summit 的节点数量不断增加，该实验室采用迭代法，在节点上运行越来越多的代码。截止4月，该实验室使用了该系统27，000个 GPU 中的大部分，实现了近 46 petaflops 的性能，达到了之前的20倍。

对于一个基于密度泛函理论（DFT）的程序来说，这是一个前所未有的结果。密度函数理论是一项解释亚原子粒子之间量子相互作用的复杂数学理论。

适用于高难度算法的分布式计算

DFT 算法的复杂性和基础性使其目前占用了所有公共研究计算机四分之一的时间。在被引用次数最多的100篇科学论文中，有12篇是 DFT 为主题的。该计算还被用来分析从天体物理学到 DNA 链的一切。

最初，根据该实验室的报告，该程序使用了 Summit 的顶尖理论性能的近30%，这是一个异常高的效率。相比之下，大多数其他 DFT 代码除了能够使用数个处理器之外，很难实现进一步的扩展，因此就连效率报告都没有。

Gavini 表示：“能实现这一前所未有的效率令我们感到非常高兴。”

声名鹊起

2019年底，该团队被提名为戈登贝尔奖的入围者。这是该实验室首次参加这一“高性能计算领域诺贝尔奖”的评选。

Gavini 表示：“这为我们的实验室和大学带来了很高的知名度，我认为这次努力还只是一个开始。”

事实上，自评选以来，实验室在 Summit 上，将代码的性能提升到了 64 petaflops ，效率亦达到38%。并且该实验室已经在探索在其他系统和应用上的使用。

寻求更多的应用和更高的性能

最初，这项工作被用于分析镁。这种比当今汽车和飞机使用的钢和铝轻得多的金属有望大幅节省燃料。去年，该实验室与另一团队合作，研究电子在 DNA 中的移动方式，这项工作可以帮助其他研究者研发出更有效的药物。

接下来重要的一步是在 Perlmutter 上运行代码。这是一台使用最新 NVIDIA A100 Tensor Core GPU 的超级计算机。根据Das的报告，基于A100 GPU对TensorFloat-32的支持，与 Summit GPU 相比，这台计算机目前已经实现了4倍速度提升。TensorFloat-32 是一种既能提供快速结果，又能实现高精度的混合精度格式。

与其他 DFT 代码相比，该实验室程序已实现100倍的速度提升，但 Gavini 并没有就此止步。他已经在考虑在 Fugaku 上测试它。Fugaku 是基于 Arm 系统的全球最快的超级计算机。

他表示：“眼下的收获总会令人欣喜，但‘路漫漫其修远兮，吾将上下而求索’。这次的成果也是我们新征程的开始。”

原文标题：借助数学的力量：密歇根团队破解亚原子世界的密码

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

审核编辑：彭菁

超级计算机提升密歇根个月