首页 / 行业
微软在人工智能TTS语音合成技术上的最新进展
2022-02-08 09:27:00
小编说:在这个技术快速更迭的时代,人工智能的可能性在逐渐拓宽。为了让大家可以更好的理解人工智能在智能语音方面的强大能力,今天小编就来详细为大家介绍微软在人工智能TTS语音合成(Text-to-Speech)技术上的一些最新进展。
不同对话场景
用户期待不同语气的拟人 AI 语音
TTS 语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。
客服机器人:语气要自然、友好且专业
很多企业正在使用支持语音的聊天机器人或 IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人 TOBi。Azure 的人工智能和自然语言处理功能赋予了 TOBi 鲜明的个性,使客户与 TOBi 之间的人机对话变得轻松自然,让客户更乐于与之交流。
设想这样的情景:在客户对 TOBi 报出姓名后,当 TOBi 需要了解客户的地址以便提供进一步服务时,TOBi 并不会生硬地接着发问:「请说出您的地址。」而是会这样表达:「嘿,好名字!接下来我还需要了解一下您住在哪里?」此时此刻,客户一定希望 AI 能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在 AI 解答客户疑问时,还适用于 AI 语音向客户打招呼,或表达共情态度时。个人助理:表情符号、重点强调要读懂
随着虚拟助手和虚拟现实技术的兴起,使用 Neural TTS 来支持闲聊和日常对话功能的客户数量正在不断增加。想要让 AI 与人类的对话更加自然,最主要的挑战之一在于如何让 AI 理解包含特殊字符在内的聊天用语——比如「呵呵」、「哈哈」、「哎哟」这类词汇。
这类表情符号,还有重复字母如「soooo good」——然后再以自然的语气提供即时响应。此外,让 AI 能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。同声传译:翻译前后说话风格、语气要一致
语音互译是又一个对话式 AI 语音可支持的典型场景。Azure Neural TTS 已覆盖 110 多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果 AI 语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。
Azure Neural TTS
进化:多国语言皆可栩栩如生户
Sara(英语):更能表现自然情感的聊天机器人语音
Sara 是一个新近推出的美式英语音色,尤其擅长轻松的对话。「她」有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara 拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出「太~(拉长语调)好了」这种人类特有的语调。播放下面的语音,亲耳感受一下效果。
下面这段录音,来自 Sara 作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)
除了预设的几种「情绪」,用户还可以通过 SSML 让 Sara 在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。
晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音
晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类「严肃」场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。借助先进的建模技术,晓辰和晓颜的 AI 语音能够学习并活用这些人类表达的「缺陷」,并逼真地还原这些「不完美」,使合成语音听起来更加真实亲切。在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。
Nanami(日语):元气满满的东瀛女声
Nanami 是拥有动听女性声线的日语语音。「她」有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。
来听一听 Nanami 元气满满的声音:
现在就来感受
Azure Neural TTS 拟人语音的动人表现力吧!
微软不断倾听全球用户对于 Azure Neural TTS 在不同情况下语音发音准确性的反馈,以负责任的 AI 及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。现在,微软的文本转语音可以支持超过 110 种语言的 270 多种 AI 语音。如果想亲身感受 Azure Neural TTS 的强大,就来 Azure 官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。
原文标题:什么!跟我说话的竟然是AI!
文章出处:【微信公众号:微软科技】欢迎添加关注!文转载请注明出处。
审核编辑:汤梓红
最新内容
手机 |
相关内容
电容式触摸按键屏中应用的高性能触
电容式触摸按键屏中应用的高性能触摸芯片,芯片,位置,触摸屏,能力,响应,用户,电容式触摸按键屏(Capacitive Touch Key Screen)是一种常晶振在激光雷达系统中的作用
晶振在激光雷达系统中的作用,作用,系统,激光雷达,晶振,可靠性,选择,激光雷达(Lidar)是一种利用激光进行测距的技术,广泛应用于自动驾驶智能传感器助力打造数字经济数字世
智能传感器助力打造数字经济数字世界,数字,经济,传感器,助力,智能,及时发现,PCM1801U智能传感器是一种能够感知环境并将感知结果转芯片迈向系统化时代:EDA软件的创新
芯片迈向系统化时代:EDA软件的创新之路,时代,芯片,形式,支持,性能,验证,芯片设计是现代科技领域的重要组成部分,它涉及到电子设计自动所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工穿心电容与普通电容的区别?穿心电容
穿心电容与普通电容的区别?穿心电容为何能有效地滤除高频噪声?,噪声,高频,噪声抑制,较好,心电,结构,穿心电容与普通电容的区别主要体语音合成芯片与电子血压计的应用探
语音合成芯片与电子血压计的应用探索,芯片,语音合成,健康管理,智能语音,数据,用户,语音合成芯片和电子血压计是现代科技领域的两个