首页 / 行业
一文看懂智能家居语音系统
2023-02-07 01:14:00
多种交互方式已经成为当下智能家居的一大特点,许多产品已经不再需要手动调整和控制,更常用的是语音唤醒及操控,这也是最符合人类所习惯的交互方式。有研究表明,人类大脑皮层每天处理的信息中心,声音信息占20%,是沟通最重要的纽带。
但想要让机器理解人声,就需要在前端把声音信号进行处理,转化为文字或代码的形式供机器理解,在机器生成语言之后,再用语言合成技术将这些信息转化为声波,从而使用人声来进行回应。
语音系统的发展
语音技术的发明最早可以追溯到半个世纪之前,1952年,贝尔实验室制作了一台高6英尺的自动数字识别机“Audrey”,能够识别数字0-9的发音,准确率达到90%以上。
不过这一系统主要基于简单的模板匹配方法识别个体说出的孤立数字,也导致作为模板的熟人说出的语音识别会更精准,而陌生人识别率会低一些。在此之后,连续语音识别系统开始出现,语音合成的参数合成法能够生成比较自然的语音。
到二十世纪八十年代中期,IBM创造了一台可以用语音控制的打字机“Tangora”,基于隐形马尔科夫链模型(HMM),在信号处理技术中加入了统计信息,可以让机器在听到第一个音节时,便能够预测单词。到了1984年,这一系统在5000个词汇量级上达到了95%的识别率。
时间来到2011年,微软研究院将DNN技术应用在大词汇量连续语音识别任务上,极大地降低了语音识别错误率。
2016年,微软团队已经将语音识别的词错率(WER)降低至了5.9%,这一数据已经相当于专业速录员速记同样一段话的水平。这标志着机器的语音识别准确率第一次达到人类水平,智能语音语言技术开始逐步落地。
到了这一阶段,端到端的语音识别开始被广泛应用,智能语音助手、智能音箱等多款应用智能语音识别的产品相继落地。发展到近期,语音识别的准确率进一步提升,且针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现。语音识别准确率已经达到98%以上,并且能根据实际应用痛点针对性强化。
从2011年第一款手机语音助手Siri伴随着iPhone 4S的亮相,让全球各大厂商纷纷入局,也标志着正式开启智能语音应用元年,到2017年下半年开始通过开放语音生态系统进行产业内合作,语音识别系统也开始向可穿戴、智能家居、车载等领域延伸。
据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。目前国内主要智能语音服务商如百度、科大讯飞、思必驰、乐言科技、声扬科技、竹间智能等。
智能家居语音系统
从整个智能家居语音系统来看,主要构成为语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控制模块等。
语音采集模块主要起到完成信号调理和信号采集的功能,通过将语音信号转换为语音脉冲序列,模块中主要包括声音与电信号的转换、信号调理和采样等信号处理过程。
其中采样位数与采样率对音频接口而言是最重要的两个指标,也是选择声音模块的重要标准。每增加一个采样位数相当于力度范围增加了6dB,采样位数越多则捕捉到的信号越精准。
而采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样率越高,计算机摄取的图片越多,对于原始音频的还原也越加精确。
语音前级处理模块主要用于滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化为标准语音特征矢量。
而语音训练模块主要功能是将多次采集、提取到的语音特征标准矢量进行概率统计,避免语音受到人自身情绪、环境等因素引起的干扰。简而言之,这一模块是帮助进行语音校准,减少误差。
语音识别模块,顾名思义,主要通过将新采集到的语音特征矢量与语音模板库中的语音模型进行比较,然后再判断当前语音命令功能。而语音模板库中,主要存储训练后的最佳标准语音特征矢量。
其他如语音提示模块的主要功能为提示用户进行相关操作的进度,以及前往完成的情况;而输出控制模块便是针对智能语音识别的结果来输出相应的控制信号,比如开关、音量调节、温度大小等。
通过这些模块的加入,便能够让语音识别人机交互成为现实。并依照这个框架,语音识别技术已经开始有了长远的发展。
在近几年的研究中,端到端的语音识别仍然是ASR( Automatic Speech Recognition)研究的热点,同时基于Attention机制的识别系统已经成为语音技术研究的主流。此外,远场语音识别、模型结构、模型训练、跨语种或者多语种语音识别都成为了研究的热门选项。
小结
到今年,语音识别技术已经发展了71年,从最初只能识别特定单词,到慢慢实现理解人的语音、语义,并参与到智能家居等落地应用中来,为人们实现更好的生活体验。相比智能视觉只是针对人脸这一个变量而言,智能语音技术需要解决的是更复杂的语义、繁杂的环境、精准关键词的检测等来提升输入效率,而这些都需要时间来完成。
但想要让机器理解人声,就需要在前端把声音信号进行处理,转化为文字或代码的形式供机器理解,在机器生成语言之后,再用语言合成技术将这些信息转化为声波,从而使用人声来进行回应。
语音系统的发展
语音技术的发明最早可以追溯到半个世纪之前,1952年,贝尔实验室制作了一台高6英尺的自动数字识别机“Audrey”,能够识别数字0-9的发音,准确率达到90%以上。
不过这一系统主要基于简单的模板匹配方法识别个体说出的孤立数字,也导致作为模板的熟人说出的语音识别会更精准,而陌生人识别率会低一些。在此之后,连续语音识别系统开始出现,语音合成的参数合成法能够生成比较自然的语音。
到二十世纪八十年代中期,IBM创造了一台可以用语音控制的打字机“Tangora”,基于隐形马尔科夫链模型(HMM),在信号处理技术中加入了统计信息,可以让机器在听到第一个音节时,便能够预测单词。到了1984年,这一系统在5000个词汇量级上达到了95%的识别率。
时间来到2011年,微软研究院将DNN技术应用在大词汇量连续语音识别任务上,极大地降低了语音识别错误率。
2016年,微软团队已经将语音识别的词错率(WER)降低至了5.9%,这一数据已经相当于专业速录员速记同样一段话的水平。这标志着机器的语音识别准确率第一次达到人类水平,智能语音语言技术开始逐步落地。
到了这一阶段,端到端的语音识别开始被广泛应用,智能语音助手、智能音箱等多款应用智能语音识别的产品相继落地。发展到近期,语音识别的准确率进一步提升,且针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现。语音识别准确率已经达到98%以上,并且能根据实际应用痛点针对性强化。
从2011年第一款手机语音助手Siri伴随着iPhone 4S的亮相,让全球各大厂商纷纷入局,也标志着正式开启智能语音应用元年,到2017年下半年开始通过开放语音生态系统进行产业内合作,语音识别系统也开始向可穿戴、智能家居、车载等领域延伸。
据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。目前国内主要智能语音服务商如百度、科大讯飞、思必驰、乐言科技、声扬科技、竹间智能等。
智能家居语音系统
从整个智能家居语音系统来看,主要构成为语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控制模块等。
语音采集模块主要起到完成信号调理和信号采集的功能,通过将语音信号转换为语音脉冲序列,模块中主要包括声音与电信号的转换、信号调理和采样等信号处理过程。
其中采样位数与采样率对音频接口而言是最重要的两个指标,也是选择声音模块的重要标准。每增加一个采样位数相当于力度范围增加了6dB,采样位数越多则捕捉到的信号越精准。
而采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样率越高,计算机摄取的图片越多,对于原始音频的还原也越加精确。
语音前级处理模块主要用于滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化为标准语音特征矢量。
而语音训练模块主要功能是将多次采集、提取到的语音特征标准矢量进行概率统计,避免语音受到人自身情绪、环境等因素引起的干扰。简而言之,这一模块是帮助进行语音校准,减少误差。
语音识别模块,顾名思义,主要通过将新采集到的语音特征矢量与语音模板库中的语音模型进行比较,然后再判断当前语音命令功能。而语音模板库中,主要存储训练后的最佳标准语音特征矢量。
其他如语音提示模块的主要功能为提示用户进行相关操作的进度,以及前往完成的情况;而输出控制模块便是针对智能语音识别的结果来输出相应的控制信号,比如开关、音量调节、温度大小等。
通过这些模块的加入,便能够让语音识别人机交互成为现实。并依照这个框架,语音识别技术已经开始有了长远的发展。
在近几年的研究中,端到端的语音识别仍然是ASR( Automatic Speech Recognition)研究的热点,同时基于Attention机制的识别系统已经成为语音技术研究的主流。此外,远场语音识别、模型结构、模型训练、跨语种或者多语种语音识别都成为了研究的热门选项。
小结
到今年,语音识别技术已经发展了71年,从最初只能识别特定单词,到慢慢实现理解人的语音、语义,并参与到智能家居等落地应用中来,为人们实现更好的生活体验。相比智能视觉只是针对人脸这一个变量而言,智能语音技术需要解决的是更复杂的语义、繁杂的环境、精准关键词的检测等来提升输入效率,而这些都需要时间来完成。
最新内容
手机 |
相关内容
电流互感器作用 电流互感器为什么
电流互感器作用 电流互感器为什么一端要接地?,作用,误差,原因,连接,测量,短路故障,电流互感器(Current Transformer,简称CT)是一种用于半导体主控技术:驱动自动驾驶革命的
半导体主控技术:驱动自动驾驶革命的引擎,自动驾驶,交通,自动驾驶系统,数据,车辆,自动,随着科技的不断进步,自动驾驶技术已经成为现实晶振在激光雷达系统中的作用
晶振在激光雷达系统中的作用,作用,系统,激光雷达,晶振,可靠性,选择,激光雷达(Lidar)是一种利用激光进行测距的技术,广泛应用于自动驾驶Arbe 4D成像雷达以高分辨率雷达技
Arbe 4D成像雷达以高分辨率雷达技术和先进处理技术消除“幽灵刹车”问题,刹车,成像,分辨率,系统,目标,数据,Arbe 4D成像雷达是一种浅析动力电池熔断器的基础知识及选
浅析动力电池熔断器的基础知识及选型,动力电池,时切,系统安全,作用,产品,系统,BA4558F-E2动力电池熔断器是用于保护动力电池系统安消除“间隙”:力敏传感器如何推动新
消除“间隙”:力敏传感器如何推动新颖的HMI设计,传感器,智能手机,交互,交互方式,操作,用户,随着科技的不断发展,人机交互界面(HMI)的设射频前端芯片GC1103在智能家居无线
射频前端芯片GC1103在智能家居无线通信IoT模块中应用,模块,芯片,无线通信,智能家居,支持,数据交换,射频前端芯片GC1103是一种低功耗应用在阀门控制中的直流有刷驱动芯
应用在阀门控制中的直流有刷驱动芯片,芯片,控制,支持,远程控制,电动,调节,直流有刷驱动芯片是一种用于控制直流电机的IPB072N15N3G