首页 / 行业
AI精确复制声音, 真假“比尔·盖茨”难辨
2019-06-15 10:44:00
近日, 脸书的研究人员成功克隆了微软总裁比尔·盖茨的声音。
脸书人工智能研究中心的肖恩·瓦斯奎兹(Sean Vasquez)和迈克·刘易斯(Mike Lewis)于本周表示,他们已经努力模仿人类语言有一段时间了。然而,模仿人类语言显然是件难事,当人们听到斯蒂芬·霍金所使用的那套最著名的说话机器发声时,会发现它听起来仍然很不像人类。
但是现在,研究员们似乎已经取得了进展。如果你听了盖茨的克隆所发出的声音,我想你是会同意的。因为它听起来很像比尔·盖茨,你甚至很难分辨出它和他真实声音的区别。
研究人员展示了他们的研究。在这里,机器模仿着盖茨的腔调发声,“请给你珍爱的朋友发一封充满爱意的短信。”其中最不可思议的是,这台机器在说“珍爱(cherish)”时,准确无误地捕捉到盖茨不断上升的语调变化的。
这项技术被称为MelNet,可以用来复制人类的语调。到目前为止,盖茨和其他许多人的声音都被它完美地再现了。瓦斯奎兹和刘易斯说,克隆的音频取自各类Ted演讲。
两位研究人员还表示,直到最近,文本到语音转换软件还不能很好地工作的原因是它使用了波形图记录声音。这些图显示了声音在几秒钟内的音阶变化。如果你听到过盖茨说“珍爱”这个词,就知道他的语气是变化剧烈的。在试图模仿一个人的时候,深度学习机器必须预测到所有这些细微的变化,这很不容易。
瓦斯奎兹和刘易斯说,他们通过使用一种叫做光谱图的东西来训练机器,成功地克隆了声音。
研究人员说:“光谱图的时间轴比波形图的时间轴紧凑几个数量级,这意味着在波形中跨越数万个时间步长的依赖关系在光谱图中只跨越数百个时间步长。这使得我们的光谱图模型能够在数秒内记录各种语音和音乐样本,并保持它们一致性。”
不过,他们也经历了一些挫折。研究小组表示,对他们来说,几乎完美地复制一个句子并不难,难的是复制那些在长达几十秒或几分钟的时间里,显示了情绪变化的复杂语调”。尽管如此,当涉及到人机交互时,研究小组说,在只涉及简短对话的情境中,这项技术可能会带来革命性的变化。
最新内容
手机 |
相关内容
微软Ignite 2023技术大会:人工智能
微软Ignite 2023技术大会:人工智能转型,技术驱动变革,人工智能,趋势,智能,数据隐私,企业,解决方案,人工智能(Artificial Intelligence,A智能传感器助力打造数字经济数字世
智能传感器助力打造数字经济数字世界,数字,经济,传感器,助力,智能,及时发现,PCM1801U智能传感器是一种能够感知环境并将感知结果转所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工Transphorm推出TOLL封装FET,将氮化
Transphorm推出TOLL封装FET,将氮化镓定位为支持高功率能耗人工智能应用的最佳器件,支持,定位,推出,高功率,封装,器件,加利福尼亚州戈芯朋微:服务器配套系列芯片已通过客
芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI服务器,服务器,客户,芯片,验证,人工智能,公司,芯朋微是一家专注于人工智能芯片3nm,手机芯片的全新战争
3nm,手机芯片的全新战争,全新,功耗,人工智能,提升,中国,芯片,随着移动通信技术的迅猛发展,手机成为了现代人生活中不可或缺的一部分。数据中心短缺:人工智能未来的致命阻
数据中心短缺:人工智能未来的致命阻碍?,人工智能,数据中心,采用,需求,算法,存储技术,数据中心短缺是人工智能未来发展的一个重要致命