首页 / 行业
美国陆军研发了一种高效的地面机器人学习模型
2021-01-06 09:20:00
美国陆军面向未来多域作战概念研发了一种高效的地面机器人学习模型,该模型提出基于强化学习的策略,可有效减少当前训练强化学习策略的不可预测性,使自主智能体能够推理并适应不断变化的战场条件。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习技术具备解决复杂问题的能力,近年来在如围棋、象棋和电子游戏等领域有较为长足的发展。美国陆军将这种强化学习技术应用在地面机器人面临着两个巨大挑战。首先是算法的限制。在强化学习中,策略梯度方法(Policy Gradient Methods)是连续空间可伸缩算法的基础,但是现有技术无法支持更广泛的决策目标,例如风险敏感性、安全约束、对先验知识的探索和发散。其次就是数据量的问题。强化学习需要大量的样本复杂性,而美国陆军多域作战概念和下一代战斗车辆(NGCV)项目目前数据匮乏并不支持现有训练机制。
在陆军多域作战概念和NGCV项目中应用强化学习,训练机制必须提高连续空间中的样本效率和可靠性,ARL通过将现有的策略搜索方案推广到通用工具,取得了重要突破。研究人员为通用程序开发了新的策略搜索方案,并且还确定了其样本复杂度。由此产生的策略搜索方案减少了奖励积累的波动性,形成了对未知领域的有效探索和先验的机制。值得注意的是,地面机器人获取数据的成本很高。减少奖励积累的波动性,确保以有效的方式探索未知领域,或者吸收以前的经验,都将有助于打破强化学习中现行实践的样本效率壁垒。通过减少随机抽样的数量,可以实现策略优化。
这项研究为强化学习中的经典策略梯度定理做出了贡献。装备有强化学习功能的自主机器人将能够协助战士在未来战场上进行侦察探索和风险评估。研究人员下一步计划在强化学习中将更广泛的决策目标纳入多主体设置,并研究强化学习主体之间的交互设置如何在团队之间产生协同和对抗性推理。
责任编辑:YYX
最新内容
手机 |
相关内容
苹果即将推出Mac系列新品,或搭载3nm
苹果即将推出Mac系列新品,或搭载3nm M3芯片,芯片,搭载,推出,全新,市场,研发,近日,有关苹果即将推出新一代Mac系列产品的消息引起了广人形机器人风起,连接器待势乘时
人形机器人风起,连接器待势乘时,连接器,人形机器人,工作效率,性强,研发,光纤,近年来,人形机器人在人工智能领域取得了巨大的进展。随清华大学研发光电融合芯片,算力超商
清华大学研发光电融合芯片,算力超商用芯片三千余倍,芯片,研发,商用,测试,计算,科学研究,近日,清华大学发布了一项重要科研成果,他们成英特尔不应该担心英伟达Arm架构的P
英特尔不应该担心英伟达Arm架构的PC芯片?恰恰相反,芯片,英伟达,英特尔,调整,研发,推出,英特尔目前是全球最大的半导体公司之一,主要以所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技黑芝麻智能助力亿咖通科技旗下首款
黑芝麻智能助力亿咖通科技旗下首款智能驾驶计算平台成功量产交付,智能驾驶,计算,助力,首款,交付,智能,近年来,智能驾驶技术逐渐成为硅谷:设计师利用生成式 AI 辅助芯片
硅谷:设计师利用生成式 AI 辅助芯片设计,芯片,生成式,硅谷,优化,修改,方法,在硅谷,设计师们正在利用生成式人工智能(AI)来辅助芯片设计阅流智作:一种全新的生成式AI视频制
阅流智作:一种全新的生成式AI视频制作方式,或将颠覆专业视频生产,生成式,全新,视频制作,数据,学习,用户,阅流智作是一种全新的生成式A