首页 / 行业
NVIDIA超大规模模型训练的趋势及方案介绍
2021-12-23 17:50:00
作为计算领域学术界、产业界、教育界的年度盛会,CNCC2021将汇聚国内外顶级专业力量、专家资源,为逾万名参会者呈上一场精彩宏大的专业盛宴。
今年NVIDIA专家团队受邀参会,将为大家带来实用的技术论坛、开发者技术培训、编程体验。欢迎大家莅临CNCC大会现场 T10 展位以及线上分论坛了解我们带来的精彩技术分享!
亮点活动1:技术论坛
深度了解超大规模模型训练超算化
【超大规模模型训练超算化的趋势及应用 技术论坛】将于12月以在线论坛的形式召开。NVIDIA携手百度、阿里云和京东的专家为您带来超大规模分布式模型训练的实践,以及深入分析GPT-3训练过程中的存储、计算及通信开销及相应优化策略等精彩演讲。对GPU加速计算、超大规模语言模型训练、分布式训练框架和E级高性能AI计算集群的硬件架构感兴趣的小伙伴千万不要错过。
超大规模模型训练超算化的趋势及应用 技术论坛
主题报告1:飞桨分布式框架:深度解析超大模型训练技术
主讲嘉宾:
吴志华
百度深度学习技术平台部主任研发架构师,
飞桨分布式技术负责人
报告摘要:
飞桨是源于产业实践的开源深度学习平台。本专题主要介绍飞桨分布式训练框架及其在自然语言处理、视觉、推荐等领域的应用。首先带大家深入了解飞桨超大规模深度学习模型训练技术,含三代参数服务器架构、多维混合并行训练技术等,来解决不同维度大模型的训练;其次通过经典案例介绍大模型训练难点及在实际业务中的应用。
主题报告2:阿里云在超大规模分布式模型训练的实践
时间:1700主讲嘉宾:董建波 阿里云资深技术专家报告摘要:AI算法模型的规模迅速增长,对算力的需求也急剧增加,分布式集群成为AI计算的必然选择。而随着集群规模的扩展,系统的计算效率不断下降。为了应对这一挑战,阿里巴巴设计了EFLOPS高性能AI计算集群,通过软硬件的协同优化,获得极致的计算效率。本专题将介绍EFLOPS高性能AI计算集群的硬件架构,软硬件协同设计,以及在典型业务场景上的应用。
主题报告3:大规模分布式深度学习:算法、理论及应用
主讲嘉宾:
沈力
京东科技、京东探索研究院算法科学家
报告摘要:
在分布式深度学习的场景下,参数服务器和节点之间需要频繁的传输梯度和神经网络权重。当前的超级深度学习模型如GPT-3的参数量已经到千亿规模,这给现有的分布式深度学习算法带来了全新的挑战。本次报告中,京东探索研究院立足于优化算法理论,从四个层面来探索解决大规模分布式深度学习中模型参数维度过高和数据规模过大带来的通信压力和算力压力的问题。
主题报告4:超大规模模型训练的趋势及方案介绍
主讲嘉宾:
杨广楼
NVIDIA工程解决方案技术专家
报告摘要:
针对超大规模模型训练发展,介绍NVIDIA DGX SuperPOD如何设计计算、网络和存储等,提供给客户最优化、可扩展和性能可保障的一站式分布式GPU集群解决方案。
主题报告5: 深入分析GPT-3模型训练的存储、计算和网络资源需求
主讲嘉宾:
刘宏斌、刘冰
NVIDIA GPU技术专家
报告摘要:
超大规模语言模型已经在各类NLP任务中取得了SOTA级别的训练结果,然而大规模语言模型带来的存储及计算开销使其对软件及硬件都提出了较高的要求。NVIDIA推出的Megatron-LM框架通过3D-Parallelism将模型合理地分配到相应的计算资源,并且对通信及Kernel进行了优化以提升计算效率,在DGX-A100集群上整体GPU利用率可达50%以上,训练GPT-3只需34天(1024GPUs)。演讲将以Megatron-LM为例,深入分析GPT-3训练过程中的存储、计算及通信开销及Megatron-LM的相应优化策略。
主题报告6: 超大模型部署实践
主讲嘉宾:
薛博阳
NVIDIA GPU技术专家
报告摘要:
最近几年,NLP模型的参数量以每年10倍的成长速度不断增加,并且至今为止还没有减缓的迹象。为了能将这些上千亿参数的模型部署上线,透过多GPU来载入模型并且提升速度是必要的。虽然目前许多的主流框架,如 TensorFlow、PyTorch,都有提供多GPU的训练库。但在推理上,这些筐架无论是在显存使用上还是速度上都明显不足。而在推理方面,虽然也已经有许多很好的工作,例如TensorRT、Light-seq,但他们都只能支持单GPU的推理。而FasterTransformer正是第一个针对多GPU场景进行优化的推理库。
亮点活动2:CUDA编程入门分享
【Arm / GPU 架构 CUDA 编程入门分享及线上编程体验技术分享】将于 2021年12月16日1700 在线上召开。NVIDIA专家将与您一起探讨基于Arm的嵌入式平台Jetson 开发环境、GPU异构计算原理、CUDA编程模型等理论内容。此外,还将提供云端环境以进行线上开发实验,快带上你的电脑参与我们的开发实验吧!
Arm / GPU 架构 CUDA 编程入门分享及线上编程体验
12月16日
时间主题主讲嘉宾
1700CUDA开发原理介绍何琨NVIDIA企业开发者社区经理
1850线上编程实验何琨NVIDIA企业开发者社区经理
1800答疑何琨NVIDIA企业开发者社区经理
亮点活动3:展位现场开发者技术培训
【展位现场开发者技术培训】 将于12月16-17日在英伟达-丽台 T10 号展位举行举行,12月16日14:00丽台科技专家为您带来全方位实用的技术培训。在12月17日上午的NVIDIA 初创加速加速日之中,我们邀请到众多NVIDIA初创加速计划成员的创始人和研发负责人为您介绍诸如基于NVIDIA GPU 的模块化机器人平台、TensorRT 推理加速应用等各领域开发实战培训内容。
展位现场开发者技术培训
时间主题主讲嘉宾
1430现代AI数据中心构建解决方案蔡欣欣丽台GPU产品经理及售前顾问
1400AI及HPC产品解决方案蔡欣欣丽台GPU产品经理及售前顾问
1530丽台EGX边缘计算解决方案蔡欣欣丽台GPU产品经理及售前顾问
时间主题主讲嘉宾
1015英伟达初创加速计划介绍朱敏NVIDIA初创加速计划经理
1030AUTO CUBE ROBOT - 利用模块化机器人平台实现学生人工智能体系掌握张明YUHESEN研发负责人
1045TensorRT推理加速在实际场景中的应用成望极视角科技研发SVP
1000新型存储架构YRCloudFile 在 AI 训练中的性能优化与实践王鹏飞
焱融科技CTO
1115GPU 并行计算- 利用 AI模型加速空间数据生产 梁健大地量子AI遥感算法工程师
1130ROS 编程基础- 利用Jetson AGX XAVIER 实现移动机器人自主充电 杨刘一哟罗机器人执行董事&技术总监经理
原文标题:CNCC2021 | NVIDIA专家带来最实用的干货分享 武装开发者的头脑
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
审核编辑:彭菁最新内容
手机 |
相关内容
华为公开半导体芯片专利:可提高三维
华为公开半导体芯片专利:可提高三维存储器的存储密度,专利,存储密度,存储器,芯片,存储单元,调整,华为是全球领先的信息与通信技术解光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成美光低功耗内存解决方案助力高通第
美光低功耗内存解决方案助力高通第二代骁龙XR2平台,解决方案,助力,低功耗,内存,美光,第二代,随着虚拟现实(VR)和增强现实(AR)技术的迅猛黑芝麻智能助力亿咖通科技旗下首款
黑芝麻智能助力亿咖通科技旗下首款智能驾驶计算平台成功量产交付,智能驾驶,计算,助力,首款,交付,智能,近年来,智能驾驶技术逐渐成为新思科技与Arm持续加速先进节点定
新思科技与Arm持续加速先进节点定制芯片设计,芯片,节点,核心,解决方案,功耗,工具,新思科技(Synopsys)是一家全球领先的电子设计自动化接近+触摸+按压:AI技术赋能,这个三合
接近+触摸+按压:AI技术赋能,这个三合一人机交互方案,太酷了!,方案,人机交互,三合,按压,智能,识别,近年来,随着人工智能(AI)技术的迅猛发展,