首页 / 行业
Merlin HugeCTR V3.4.1版本新增内容介绍
2022-03-10 10:15:00
Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。
此次v3.4更新涉及的模块主要为:
HugeCTR 分级参数服务器
HugeCTR Python API
相关介绍:
HugeCTR 分级参数服务器介绍
V3.4.1 版本新增内容
调整了整个代码库中日志消息的日志级别。
现已支持对具有多个标签的数据集进行推理:
“Softmax” 层现在已支持 FP16,并且支持混合精度以进行多标签推理。
支持多 GPU 离线推理:
我们通过 Python 接口支持多 GPU 离线推理,它可以利用Hierarchical Parameter Server并在多个设备上实现并发执行。更多信息请参考推理 API和多 GPU 离线推理笔记本。
HPS 已构建为独立库:
我们重构了代码库并将分层参数服务器构建为一个独立的库,以后会进一步封装。
metadata.json 简介:
添加了有关 Parquet data 中 _metadata.json 的详细信息。
增加了用于估计每个 GPU 的词汇量大小的文档和工具:
我们添加了一个工具来计算每个 GPU 的不同嵌入类型的词汇量大小,在此基础上,workspace_size_per_gpu_in_mb 可以根据嵌入向量大小和优化器类型评估更多信息请参考脚本。
训练中支持 HDFS :
a. 现在支持从 HDFS 加载和存储模型和优化器状态。
b. 增加了编译选项使 HDFS 的支持更加灵活。
c. 添加了一个笔记本来展示如何将 HugeCTR 与 HDFS 一起使用:
增加了一个演示如何分析模型文件的 Python 脚本和笔记本
错误修复:
修复了SOK 中的镜像策略错误
修复了无法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02中导入稀疏操作工具包的问题。
HugeCTR 参数服务器:修复了在未配置 RocksDB 时,可能会在初始化期间发生的访问冲突问题。
已知问题
HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令(-shm-size=1g -ulimit memlock=-1) 来增加这些资源。
另见 NCCL 的 已知问题
还有 GitHub 问题
目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。
文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 worker 将被映射到同一个文件,从而导致数据加载不会按预期进行。
正则化器暂不支持联合损失训练。
原文标题:Merlin HugeCTR v3.4.1 发布说明
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
审核编辑:汤梓红
最新内容
手机 |
相关内容
新思科技与Arm持续加速先进节点定
新思科技与Arm持续加速先进节点定制芯片设计,芯片,节点,核心,解决方案,功耗,工具,新思科技(Synopsys)是一家全球领先的电子设计自动化PODsys:大模型AI算力平台部署的开源
PODsys:大模型AI算力平台部署的开源“神器”,开源,模型,平台,运行,计算,用户,PODsys(Platform for Open-source Distributed System)是芯朋微:服务器配套系列芯片已通过客
芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI服务器,服务器,客户,芯片,验证,人工智能,公司,芯朋微是一家专注于人工智能芯片从零基础开始,掌握低代码+ Al 的应
从零基础开始,掌握低代码+ Al 的应用技巧,零基础,方法,框架,工具,深度学习,学习,低代码(Low-Code)是一种通过可视化开发工具和少量手写国产耗材控制芯片—TPS61220DCKR推
国产耗材控制芯片—TPS61220DCKR推荐,推荐,芯片,控制,国产,耗材,输出,TPS61220DCKR是一款国产耗材控制芯片,由中国芯片制造商生产。什么是串口服务器,串口服务器的组成
什么是串口服务器,串口服务器的组成、特点、原理、分类、常见故障及预防措施,服务器,串口,分类,远程访问,预防,接口,TLC27M2CDR串口手势识别传感器的工作原理和常见技
手势识别传感器的工作原理和常见技术实现,常见技术,工作原理,传感器,手势识别,训练,信号,AD9203ARUZ手势识别传感器是一种能够感知钰泰推出一颗可以劫富济贫的芯片ET
钰泰推出一颗可以劫富济贫的芯片ETA300X主动均衡芯片,芯片,均衡,推出,机会,确保,分配,近年来,在全球范围内,贫富差距逐渐扩大,贫困人口