首页 / 行业
Facebook研究人员利用视觉和音频探索人工智能技术
2021-01-12 16:03:00
平面布置图对于可视化空间、规划路线和沟通建筑设计非常有用。例如,一个进入新建筑的机器人可以使用平面图快速感知总体布局。创建平面图通常需要一个完整的布局,这样3D传感器和摄像机就可以捕捉到整个空间。
1月11日消息,据外媒报道,近日,来自Facebook、德克萨斯大学奥斯汀分校和卡内基梅隆大学的研究人员正在探索一种人工智能技术,利用视觉和音频,从一个短视频剪辑中重建一个平面图。
研究人员断言,音频提供了空间和语义信号,补充了图像的映射能力。他们说,这是因为声音天生是由物体的几何形状所驱动的。声音从表面反射回来,揭示了房间的形状,远远超出了相机的视野。从远处听到的声音,甚至是多个房间之外的声音,可以揭示自由空间的存在,声音物体可能存在。此外,从不同方向听到的声音暴露了基于这些声音所代表的活动或事物的布局。例如,淋浴的声音可能暗示着浴室的方向,而微波炉的声音则暗示着厨房的方向。
研究人员的方法被称为AV-Map,旨在将带有多通道音频的短视频转换成2D楼层平面图。机器学习模型利用音频和视觉数据序列来推理楼层平面图的结构和语义,最终使用解码组件融合音频和视频信息。AV-Map生成的平面图大大超出了视频中直接可见的区域,显示了划分为离散语义房间标签(如家庭房间和厨房)的自由空间和被占用区域。
该团队在来自Matternet3D和SoundSpaces数据集的数字环境中试验了两种设置,即主动和被动。在第一个实验中,使用一个虚拟摄像机在模型房屋的房间内移动时发出一种已知的声音。在第二种情况下,只依赖家中物体或人自然发出的声音。
研究人员表示,在未来的工作中,将计划考虑扩展多层平面图,并将绘图想法与机器人连接起来,主动控制摄像头。
责任编辑:pj
最新内容
手机 |
相关内容
重庆东微电子推出高性能抗射频干扰
重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片,芯片,推出,算法,抑制,音频,信号,重庆东微电子有限公司最近推出了一款高性能半导体主控技术:驱动自动驾驶革命的
半导体主控技术:驱动自动驾驶革命的引擎,自动驾驶,交通,自动驾驶系统,数据,车辆,自动,随着科技的不断进步,自动驾驶技术已经成为现实加特兰毫米波雷达SoC芯片赋能室内
加特兰毫米波雷达SoC芯片赋能室内安防新应用,毫米波雷达,芯片,用于,稳定性,目标,感知,室内安防是一个重要的领域,随着技术的进步和人一文了解PTC热敏电阻(贴片式)
一文了解PTC热敏电阻(贴片式),容量,布局,安装,超过,温度,响应,PTC热敏电阻(Positive Temperature Coefficient Thermistor)是一种热敏所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工新思科技与Arm持续加速先进节点定
新思科技与Arm持续加速先进节点定制芯片设计,芯片,节点,核心,解决方案,功耗,工具,新思科技(Synopsys)是一家全球领先的电子设计自动化阅流智作:一种全新的生成式AI视频制
阅流智作:一种全新的生成式AI视频制作方式,或将颠覆专业视频生产,生成式,全新,视频制作,数据,学习,用户,阅流智作是一种全新的生成式A