首页 / 行业

英特尔推动人工智能走向新阶段

2022-01-18 15:36:00

很多时候，机器学习和人工智能像是在远程、复杂的超级计算机上运行的高端技术，以解决棘手的问题。然而最近，我有幸与一群了不起的工程师和科学家合作，共同开展了一个将人工智能融入日常生活的重大项目。

从2019年开始，在ML Commons的支持下成立了一个工作组，旨在通过创建大规模、多样化和公开许可的语音数据集来增强并普及语音识别技术。迄今为止，该项目已经产生了两个顶级数据集，涵盖了全球数十个语种。该小组的成员来自英特尔、哈佛大学、阿里巴巴、甲骨文、Landing AI、密歇根大学、谷歌、百度等。

介绍这些口语数据集的两份白皮书——《人的语言》和《多语种口语语料库》，已于12月7日举办的NeurIPS大会上发布。其中，《人的语言》主要针对“自动语音识别”任务;《多语种口语语料库》则包含“关键词识别”。这两个项目的数据集都贡献了大量丰富的音频数据，且每个数据集在同类中都拥有最大的可用体量。

这将会对人们的日常生活产生哪些影响?通过对这些数据集的训练，计算机或其他设备可以“听到”口头语言并采取适当的行动，例如响应用户的查询或生成自动转录文本。在当今多元化、国际化、多语言的工作环境中，准确转录和翻译的能力愈发重要。

这两个项目都运用了“多样化语音”，这意味着它们更好地展现自然环境音，如背景噪音、非正式语言模式、录音设备混音以及其他声学环境等。这与诸如有声读物之类的高度受控的内容不同，后者产生的声音更加“纯净”。然而，在实际应用中，多样化语音训练有助于提高识别的准确性。

“人的语言”项目内含数万小时的对话音频。如今，它是世界上最大的、可免费下载的、用于学术和商用的英语语音识别数据集之一。

“多语种口语语料库”是一个音频语音数据集，不仅拥有超过30万个关键字的数十种语言，能够通过智能设备访问，还涵盖了50多亿用户的日常对话，有助于推动全球范围内受众语音应用的研发。

开发这些数据集的研究人员来自于一个跨越多个大洲的国际小组。多年来，我们每周通过电话会议会面，每个人都为项目贡献特定专业知识。

这两个数据集都将被研究人员和开发者广泛使用，而且它们包括商用在内的授权许可条款都相对较为宽松。适当开放授权的重要性被无意识地低估了，导致许多有应用前景的数据集在可用性和适用规模方面受到限制。

这两个数据集将由MLCommons进行长期维护。MLCommons是一个由全球技术提供商、学者和研究人员组成的联盟，而英特尔是联盟的创始成员之一。

在语言的人工智能领域，这个项目是一个飞跃，同时它也为未来开启了诸多可能性。未来，我期待与同事们继续合作，将其推向新的阶段。

原文标题：倾听世界：人工智能的突破

文章出处：【微信公众号：英特尔中国】欢迎添加关注!文章转载请注明出处。

审核编辑：汤梓红

人工智能英特尔超级计算机上

首页 / 行业

英特尔推动人工智能走向新阶段

最新内容

相关内容

热门文章

推荐文章

标签云

猜你喜欢