• 1
  • 2
  • 3
  • 4

首页 / 行业

用Riva和NeMo Megatron构建语音AI

2022-03-31 15:49:00

上周, NVIDIA GTC 2022 宣布了对 Riva 的重大更新。 Riva 是一个用于构建语音 AI 应用程序的 SDK ,以及一个付费的 Riva 企业产品。 NeMo Megatron 是一个用于训练大型语言模型的框架,它的几项关键更新也已宣布。

Riva 2.0 通用性

Riva 为跨多种语言的实时自动语音识别( ASR )和文本到语音( TTS )技能提供了世界级的准确性,并且可以部署在 prem 上、任何云中。 Snap 、 T-Mobile 、 RingCentral 和 Kore 等行业领导者。 ai 在客户服务中心应用程序、转录和虚拟助理中使用 Riva 。

最新的 Riva 版本包括:

ASR 有多种语言:英语、西班牙语、德语、俄语和普通话。

高质量的 TTS 语音可定制独特的语音字体。

使用 TAO Toolkit 或 NVIDIA NeMo 进行特定于领域的定制,在口音、领域和国家特定术语方面具有无与伦比的准确性。

支持在云端、 prem 和嵌入式平台上运行。

图 1:NVIDIA Riva 可控文本到语音使得使用 SSML 标签可以轻松调整音调和速度。

在手机上尝试 Riva 自动语音识别 Riva 产品页面 。

Defined.ai 与 NVIDIA 合作,为希望购买跨语言、域和录音类型的语音培训和验证数据的企业提供一个顺畅的工作流程。可在 此处 中找到针对 NVIDIA 开发人员的 DefinedCrowd 数据集示例。

下载 RIVA ,它是免费的NVIDIA 开发人员的成员从 NGC 免费。

Riva 企业

NVIDIA 还推出了 Riva Enterprise ,这是一款付费产品,面向在NVIDIA 专家的业务标准支持下大规模部署 Riva 的企业。

好处包括:

在任何云和 prem 平台上不受限制地使用 ASR 和 TTS 服务。

在当地营业时间与NVIDIA 人工智能专家联系,获取有关配置和性能的指导。

为维护控制和升级计划提供长期支持。

优先访问新版本和功能。

Riva Enterprise 在 NVIDIA Launchpad 上提供免费试用版,供企业评估并制作应用程序原型。

Riva launchpad 上的 Enterprise 包括引导实验室,用于:

与实时语音 AI API 交互。

将语音 AI 功能添加到对话 AI 应用程序中。

在自定义数据上微调语音 AI 管道以获得更高的准确性。

申请 用于您的 Riva 企业试用。

通过 对话人工智能解谜 GTC 课程了解有关如何构建、优化和部署语音 AI 应用程序的更多信息。

NeMo Megatron

NVIDIA 宣布了新的更新 NVIDIA NeMo Megatron ,这是一个培训大型语言模型( LLM )的框架,其参数高达数万亿。基于 Megatron paper 的创新, NeMo Megatron 的研究机构和企业可以培训任何 LLM ,以实现融合。 NeMo Megatron 提供数据预处理、并行(数据、张量和管道)、编排和调度,以及自动精度自适应。

它包括经过彻底测试的配方、流行的 LLM 架构实现,以及组织快速开始 LLM 之旅所需的工具。

瑞典,法学博士。 com 、 Naver 和佛罗里达大学是 Nvidia 技术的早期采用者,用于建立大型语言模型。

最新版本包括:

Hyperparameter tuning tool 会根据客户需求和基础设施限制自动创建配方。

T5 和 mT5 车型的参考配方。

支持在云上培训 LLM ,从 Azure 开始。

分布式数据预处理脚本,缩短端到端培训时间。

关于作者

About Siddharth Sharma:

Siddharth Sharma 是NVIDIA 加速计算的高级技术营销经理。在加入NVIDIA 之前, Siddharth 是 Mathworks Simulink 和 Stateflow 的产品营销经理,与汽车和航空航天公司密切合作,采用基于模型的设计来创建控制软件。

About Gordana Neskovic:

Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Sirisha Rella:

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

审核编辑:郭婷

语音语言模型培训其参

  • 1
  • 2
  • 3
  • 4

最新内容

手机

相关内容

  • 1
  • 2
  • 3

猜你喜欢