首页 / 行业
NVIDIA通过NeMo 1.0加速会话AI从研究到生产过程
2022-04-01 15:30:00
NVIDIA 发布了世界级的语音识别功能,可为企业生成高精度的转录本, NeMo 1.0 包括用于民主化和加速对话人工智能研究的最新语音和语言模型。
世界级语音识别
NVIDIA Riva 世界级语音识别是一种现成的语音服务,可以轻松部署在任何云或数据中心。企业可以使用 迁移学习工具包 ( TLT )跨各种行业和用例定制语音服务。 通过 TLT ,开发人员可以将定制语音和语言模型的开发速度提高 10 倍。
语音识别模型是高度精确的,并在电信、金融、医疗保健、教育以及各种专有和开源数据集的领域无关词汇上进行训练。此外,它还接受了噪声数据、多种采样率(包括呼叫中心 8khz )、各种口音和对话的训练,所有这些都有助于提高模型的准确性。
使用 Riva 语音服务,您可以在 10 毫秒内生成一个转录。它在多个专有数据集上进行评估,准确率超过 90% ,并且可以适应各种各样的用例和领域。它可以在几个应用程序中使用,例如在呼叫中心、视频会议和虚拟助理中转录音频。
T-Mobile 是美国最大的电信运营商之一,它利用 Riva 提供卓越的客户服务。
T-Mobile 负责产品和技术的副总裁 Matthew Davis 说:“借助 NVIDIA Riva 服务,利用 T-Mobile 数据进行微调,我们正在构建产品,以帮助我们实时解决客户问题。”。
“在评估了几种自动语音识别解决方案后, T-Mobile 发现 Riva 能够以极低的延迟提供高质量的模型,实现客户喜爱的体验。”
您可以从 NGC 目录 下载 Riva 语音服务,现在就开始构建自己的转录应用程序。
NeMo 1.0 版本
NVIDIA NeMo 是一个开源工具包,供研究人员开发最先进的( SOTA )会话人工智能模型。它包括自动语音识别( ASR )、自然语言处理( NLP )和文本到语音( TTS )的集合,使研究人员能够快速试验新的 SOTA 神经网络,以便创建新的模型或在现有模型的基础上进行构建。
PyTorch 与 NeMo 、 PyTorch Lightning 和 Hydra 框架紧密耦合。这些集成使研究人员能够结合 PyTorch 和 PyTorch 闪电模块开发和使用 NeMo 模型和模块。此外,借助 Hydra 框架和 NeMo ,研究人员可以轻松定制复杂的会话人工智能模型。
此版本的亮点包括:
增加了对多种语言的语音识别支持,以及新的 CitriNet 和 Conformer CTC ASR 模型
从英语到西班牙语、俄语、普通话、德语和法语的五种语言支持双向神经机器翻译模型
新的语音合成模型,如 Fastpitch 、 Talknet 、 Fastspeech2 ,以及端到端模型,如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
用于自动执行 反文本规范化和反规范化 以及 基于 CTC 分割的数据集生成 和 探索 语音数据集的功能
此外,大多数 NeMo 模型可以导出到 NVIDIA Riva ,用于产品部署和高性能推断。
关于作者
About Sirisha Rella是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。
审核编辑:郭婷
最新内容
手机 |
相关内容
位移传感器结构类型及工作原理与应
位移传感器结构类型及工作原理与应用,工作原理,类型,结构,位移传感器,常见,效应,FDV302P位移传感器是一种用于测量物体位移或位置的加特兰毫米波雷达SoC芯片赋能室内
加特兰毫米波雷达SoC芯片赋能室内安防新应用,毫米波雷达,芯片,用于,稳定性,目标,感知,室内安防是一个重要的领域,随着技术的进步和人单相滤波器:从基础到应用的全面解读
单相滤波器:从基础到应用的全面解读,滤波器,能和,噪声,选择,信号,工作原理,TVP5146PFP单相滤波器是一种用于去除电源信号中的杂波和聊聊芯片中的负压产生机理及其应用
聊聊芯片中的负压产生机理及其应用,芯片,细胞,用于,测量,生物,结构,芯片中的负压是指在芯片内部产生的负压环境。在某些应用中,负压不只是芯片 看看传感器技术我们离
不只是芯片 看看传感器技术我们离世界顶级有多远,传感器,芯片,位置,测量,交通,用于,传感器技术是现代科技中至关重要的一部分,它们被小到一个分子!研究人员开发一种微小
小到一个分子!研究人员开发一种微小的压电电阻器,优化,位置,结构,用于,传感器,压电效应,近年来,随着电子技术的快速发展,对微小尺寸电Efuse是什么?聊聊芯片级的eFuse
Efuse是什么?聊聊芯片级的eFuse,状态,编码器,故障,加密,芯片,配置信息,Efuse是一种可编程的电子熔断器,用于在芯片级别实现非易失性存高精度3D视觉技术,助力工业机器人实
高精度3D视觉技术,助力工业机器人实现汽车零部件高效上下料,工业机器人,助力,视觉,高精度,3D,算法,高精度3D视觉技术在工业机器人上