首页 / 行业
Facebook的AI通过看视频自学成才
2019-06-05 10:49:00
人类每天都在进行高层次的规划来指导自己的各种活动,但对于机器人来说这并不容易。幸运的是,越来越多的工作表明,层级抽象(即视觉运动子程序)可以提高强化学习中的样本效率,这是一种人工智能训练技术,它利用奖励来推动智能体实现目标。
传统上,这些层次结构必须通过端到端训练进行手动编程或者获取,这需要大量的时间、持续的注意力和足够的耐心。但是在 Arxiv.org 上新发布的论文「通过观看视频学习导航子程序」中,FacebookAI Research、加州大学伯克利分校和伊利诺伊大学厄巴纳 - 香槟分校的科学家描述了一个通过使用逆机器学习模型摄取视频“伪标记”来学习层次结构。
这让人想起去年 Facebook 开源的一对模型Talk the Walk。该模型可以使用 360 度图像、自然语言以及具有标志性地标(如银行、餐厅等)的地图来指导纽约市的街道,能够在不知道用户位置的情况下提供步行路线。
早上来杯咖啡成为很多都市白领每天必不可少的“自我唤醒”环节。坐在办公室的人类如果想去茶水间倒杯咖啡,你会从门厅走到底,拐向左边的走廊,然后再进入右边的房间。当人类在做这一系列思考与动作的时候,我们不是决定具体需要调动哪块肌肉,而是通过组合这些可重复使用的低级视觉运动子程序来达到目标,从而达成更高抽象水平的规划。
研究人员表示,这些视觉运动子程序,使规划能够减轻传统规划中的高计算成本和强化学习中的高样本复杂性等已知问题。
Facebook的系统包含两个阶段。第一阶段,研究人员通过运行训练模型,使用随机勘探数据的自我监督来生成伪标签。模型学习了分布在四个不同环境中的1500个位置点,然后随机执行30个步骤的动作,产生45,000个交互样本。
在第二阶段,大约217,000个伪标记视频被切成220万个互相独立的剪辑片段然后被输入一个模型,这个模型预测参考视频中采取的相应动作的模型,而一个单独的网络检查参考视频中的动作序列并将行为编码为矢量(例如数学表示)。另一个模型通过预测来自第一帧的轨迹的推断编码,针对任何给定视频帧选择调用哪些学习子例程。
在一个实验中,机器人被部署在真实的办公环境中。研究表明,学习视频(比如如何最有效的方式前往目标位置)能够让机器人的表现比用纯交互方法学习达到更好的效果,至少能够顾及到以前看不见的环境。
也许最令人印象深刻的是,这个训练有素的模型学会了有利于前进导航并避免障碍物,导航任务比曾经的最佳基准快4倍,这使得它能够完全自主地进行长距离行进。
最新内容
手机 |
相关内容
有史以来最快的半导体“超原子”能
有史以来最快的半导体“超原子”能将芯片速度提升千倍,芯片,提升,可靠性,运动,结构,集成度,在半导体技术的发展历程中,有一项被称为高精度3D视觉技术,助力工业机器人实
高精度3D视觉技术,助力工业机器人实现汽车零部件高效上下料,工业机器人,助力,视觉,高精度,3D,算法,高精度3D视觉技术在工业机器人上嵌入式视觉技术如何赋予机器观察能
嵌入式视觉技术如何赋予机器观察能力,能力,视觉,嵌入式,跟踪,特征,计算,嵌入式视觉技术是一种将人的视觉能力赋予机器的技术。通过机器人自动上下料,工业智能化进程的
机器人自动上下料,工业智能化进程的重要里程碑,进程,里程碑,自动,错误,危险,安全性,机器人自动上下料是工业智能化进程的重要里程碑,Prophesee全球最小基于事件的视觉
Prophesee全球最小基于事件的视觉传感器,瞄准超低功耗边缘智能设备,边缘,功耗,视觉,传感器,事件,适合,Prophesee是一家位于法国的人智能时代的三大核心技术
智能时代的三大核心技术,时代,核心技术,智能,机器学习,数据,学习,智能时代是指在人工智能技术的推动下,人类社会进入了一个智能化的思特威重磅推出5MP高分辨率、高帧
思特威重磅推出5MP高分辨率、高帧率面阵CMOS图像传感器新品—SC535HGS,推出,帧率,传感器,图像处理,性能,运动分析,思特威(Socionext)高通第三代骁龙8性能全面升级 虹软
高通第三代骁龙8性能全面升级 虹软携手高通共创AI影像新高度,影像,性能,升级,网络,处理器,能力,高通第三代骁龙8系列处理器是一款全