首页 / 行业
美团落实 AI 框架在 GPU 上性能推理的优化实践
2021-12-28 09:11:00

美团是一家集生活服务及商品零售的电商平台,公司聚焦“零售+科技”战略,以“吃”为核心,通过科技创新,服务于生活服务业需求侧和供给侧数字化升级。美团在中国业务涵盖餐饮、配送、网约车、共享单车、酒店及旅游预订、电影票务等 200 多个服务品类,覆盖全国 2800 个市区县,服务 6.7 亿活跃用户和 830万活跃商家。
伴随着用户规模的提升和业务的精细化运营,业务侧对推荐系统的准确度、吞吐能力和时延都提出了新的挑战,而 CTR 模型作为推荐系统的核心模型,其效果直接影响业务的收入。
美团的 CTR 模型过去一直在使用 CPU 推理的方式,但随着用户访问量的提升和深度神经网络的引入,CTR 模型结构趋于复杂,吞吐和计算量也越来越大,CPU 开始不能满足模型对于算力的需求,而仅仅通过 CPU 服务器的堆叠带来的性能提升性价比相较偏低。
而 GPU 拥有数以千计的计算核心,可以在单机内提供密集的并行计算能力,特别适合深度学习场景,在行业内已经在 CV 、NLP 等领域展示了强大的能力。通过 CUDA 及相关 API ,NVIDIA 建立了完整的 GPU 生态系统。基于此,美团基础研发平台将 CTR 模型部署到 GPU 上,并通过一系列针对 CPU 与 GPU 的异构系统并行计算设计、数据存储方式和传输方式上的特定优化,希望能通过 GPU 强大的计算力,协助美团在 CTR 预测的各业务场景中发挥出最大优势。
为了解决算力瓶颈及上述各种挑战,美团机器学习平台采用 NVIDIA AI 计算平台,在继 CV 、NLP 及 CTR 训练后,也使用了 NVIDIA T4 来提供 CTR 预测支持,大幅提升用户体验与服务稳定性。除此之外,时延也是业务侧非常重视的性能指标,许多复杂模型纵有更好的准确度,但却因响应时间不达标而无法落地应用,例如,在某搜索框自动补全的场景,由于天然的交互属性,时延要求非常苛刻,一般来说无法使用复杂的模型。而在 GPU 能力的加持下,其复杂模型的平均响应时间从 15 毫秒降低至 6~7 毫秒,足足缩短了一倍多,达到了上线要求。
通过 NVIDIA T4 深度优化方案,成功为美团 CTR 模型创造更多应用机会,不仅极大地提升了系统吞吐量,更进一步地提升了整个模型训练的速度与降低训练成本,落实 AI 框架在 GPU 上性能推理的优化实践。
美团研发工程师,机器学习平台预测引擎负责人王新表示,“在美团和英伟达的共同努力下, CTR 预测服务成功的迁移到 GPU 平台上,在为业务提供更好的支撑的同时也获得了更好的性价比;下一步,机器学习平台计划采用 NVIDIA Triton 推理服务框架和 NVIDIA Ampere A30 ,进一步提升美团推理服务的效率。”
原文标题:美团机器学习平台使用 NVIDIA GPU 助力公司 CTR 预测服务升级
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:彭菁最新内容
- Efuse是什么?聊聊芯片级的eFuse
- 英飞凌推出XENSIV胎压传感器,满足智能胎压监测系统的需
- FPGA学习笔记:逻辑单元的基本结构
- 创造多样信号的万能工具:函数/任意波形发生器
- 位移传感器结构类型及工作原理与应用
- 开关电源供应器的功能、应用场景以及重要性
- 重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片
- 拒绝一次性芯片,新技术:无线升级芯片
- 芯片迈向系统化时代:EDA软件的创新之路
- 智能安全帽功能-EIS智能防抖摄像头4G定位生命体征监测
- 卫星应用受关注,GNSS导航芯片/模块发展加速
- AI边缘智能分析设备:智慧食堂明厨亮灶的智能化应用
- 美光低功耗内存解决方案助力高通第二代骁龙XR2平台
- 浅谈芯片常用的解密器
- 电路板技术水平和质量水平,影响着机器人赛道的发展前景
- 直播回顾 | 宽禁带半导体材料及功率半导体器件测试
- 写flash芯片时为什么需要先擦除?
- DigiKey 凭借品牌更新荣获四项 MarCom 大奖
- 高精度3D视觉技术,助力工业机器人实现汽车零部件高效上
- 不只是芯片 看看传感器技术我们离世界顶级有多远
- 加特兰毫米波雷达SoC芯片赋能室内安防新应用
- 所有遥不可及,终因AI触手可及
- 一种基于聚合物的化学电阻式传感器使患者检测更容易
- MTK天玑9300重磅发布:全大核时代到来,330亿参数AI大模型
- 如何测量温度传感器的好坏?
- ACCEL光电芯片,性能超GPU千倍,新一代计算架构将更早来临
- 如何利用示波器快速测量幅频特性?有何注意事项?
- 射频连接器使用技巧与注意事项
- STC15W芯片A/D、D/A转换的简单使用
- 群芯微车规级认证的光电耦合器备受电池BMS和电驱电控
- 芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI
- 新能源高压连接器高压互锁(HVIL)功能详解
- FPGA和AI芯片算哪一类?芯片的不同分类方式
- MPS全系列电机驱动产品,助力新能源汽车实现更好的智能
- 基于穿隧磁阻效应(TMR)的车规级电流传感器
- 豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头
- 苹果发布M3系列新款MacBook Pro/iMac:业界首批PC 3nm芯
- 硅谷:设计师利用生成式 AI 辅助芯片设计
- 电容式触摸按键屏中应用的高性能触摸芯片
- DigiKey 推出《超越医疗科技》视频系列的第一季

手机 |
相关内容
新一代8通道脑电采集芯片研制成功,
新一代8通道脑电采集芯片研制成功,铠侠与西部数据已中止合并谈判,合并,芯片,脑电,新一代,通道,产品,近日,一项重要的科技突破在全球范英伟达芯片开发过程引入聊天机器人
英伟达芯片开发过程引入聊天机器人,扩展更多AI应用,聊天机器人,扩展,芯片,英伟达,开发过程,调试,英伟达是一家全球领先的半导体公司,小到一个分子!研究人员开发一种微小
小到一个分子!研究人员开发一种微小的压电电阻器,优化,位置,结构,用于,传感器,压电效应,近年来,随着电子技术的快速发展,对微小尺寸电硅谷:设计师利用生成式 AI 辅助芯片
硅谷:设计师利用生成式 AI 辅助芯片设计,芯片,生成式,硅谷,优化,修改,方法,在硅谷,设计师们正在利用生成式人工智能(AI)来辅助芯片设计应用在智能空调中的数字温度传感芯
应用在智能空调中的数字温度传感芯片,数字,芯片,温度,智能,数据,实时,数字温度传感芯片是一种用于测量环境温度的MAX3243CAI集成电高通骁龙8 Gen4曝光:升级台积电3nm
高通骁龙8 Gen4曝光:升级台积电3nm CPU回归自研架构,升级,台积电,优化,能和,功耗,处理器,高通骁龙8 Gen4是高通公司即将推出的一款NE拒绝一次性芯片,新技术:无线升级芯片
拒绝一次性芯片,新技术:无线升级芯片,芯片,升级,新技术,一次性,智能家居,物联网,一次性芯片是一种在使用后不能再次编程的MAX241CWI集DigiKey 凭借品牌更新荣获四项 Mar
DigiKey 凭借品牌更新荣获四项 MarCom 大奖,四项,机构,明尼苏达州,公司,行业,产品,全球供应品类丰富、发货快速的商业现货技术元件