首页 / 行业
特斯拉AI主管解释为何不用激光雷达:我们有超算和深度学习
2021-07-06 10:18:00
从当下各大汽车OEM在新车上采用的自动/辅助驾驶方案来看,不少用到了英伟达、Mobileye或是地平线的高性能芯片,也有用到Lumina、Velodyne或览沃的激光雷达。但归根结底这些都是机器视觉加上先进传感器的方案,而特斯拉却一直坚持采用摄像头的纯视觉方案,成了诸多车厂中的一个“异类”。
在上月举办的机器视觉和模式识别国际会议(CVPR 2021)上,特斯拉AI主管Andrej Karpathy解释了为何特斯拉用不到激光雷达。Andrej Karpathy毕业于斯坦福大学,也是AI大神李飞飞的得意门生之一,他在毕业后成了OpenAI的一位研究员,随后被埃隆·马斯克亲自挖去特斯拉做AI主管。
低成本、易维护且方便更新的纯视觉系统
深度神经网络是自动驾驶技术的主要技术之一,通过处理车载摄像头传输的数据来分析道路、标志、汽车、障碍和行人。但深度学习在图像中检测物体往往会出现失误,因此多数自动驾驶公司,比如Waymo等,都采用激光雷达来绘制车身周围的3D地图,补全神经网络缺失的信息。
然而Andrej提到,激光雷达在自动驾驶上也有自己的难处,你必须用高成本的激光雷达预绘制环境,然后创建高分辨率地图,将街道和交通灯联系在一起,最后只能局限于这些地图来驾驶。不过,绘制每个地点的精确地图是相当困难的,并不是路测车辆收集构建好这些高分辨率地图就完事了,还需要长期的维持工作,很难保证这些基础设备和数据的更新工作。
特斯拉并没有采用激光雷达和高分辨率地图结合的方案,Andrej称“对特斯拉来说,一切都是初次发生的,单单靠车身上的八个摄像头”。经过几年的迭代,特斯拉的自动驾驶工作绝大多数都是由摄像头实现,以至于车身上其他的传感器开始“吃灰”。为此,特斯拉也在今年5月宣布,即日起北美制造的Model 3和Model Y也不再配备毫米波雷达,全面过渡到以摄像头为主,辅以超声波雷达的特斯拉视觉系统。
自动标注生成的数据集和高效的神经网络
在许多激光雷达和摄像头的参数性能比较中,测距往往都是摄像头的弱项。然而,人类本身也是用“眼镜”这一纯视觉方案来进行距离和速度判断的,那么人工神经网络能否做到这一点呢?Andrej称在过去几个月的研究工作中发现,这个问题的答案是肯定的。
特斯拉的工作室为了创建这样一个可以精确检测物体距离、速度和加速度的深度学习系统,将这一挑战视为监督式学习的问题。监督式学习是机器学习中常用的一个方法,此处则被用于在标注数据训练后,让神经网络学习如何检测物体和它们的附加属性。
而打造这样一个系统,需要的是大量的视频数据、清晰精确的标准数据和诸多极端情况组成的数据集。
特斯拉与其他具备数据采集能力的汽车品牌相比有着一个独到的优势,那就是数量。有了百万辆配备摄像头的汽车,特斯拉根本不愁数据量。
在雨雪等条件下依然能够正常运转的自动标注 / 特斯拉
那么这种标注是如何进行的呢?一种可行方案是依靠数据标注公司进行手工标注,但这样做的话不仅耗时耗力,成本也不低。特斯拉的自动标注技术结合了神经网络、雷达数据和人类审查。由于这一数据集是离线标注的,所以神经网络可以来回播放视频,将预测与事实进行比对,从而调整其参数,恰恰与实时运行的测试时推理相反。
这种离线标注还有一个好处,那就是特斯拉工程师得以实现无法部署在车上的密集运算型物体检测网络,将其用于低延迟的实时应用中去。而雷达的数据只是用于进一步验证神经网络的推理,这个过程还可以让人工介入,进行一些判断上的编辑、验证和调整工作。
为了实现更好的速度和加速度判断,在打造这一数据集的过程中,特斯拉团队花了4个月时间开发了221个触发器来指出物体检测系统上还需哪些调整,比如雷达与视觉对比不符、物体边框抖动、纯靠主摄像头进行的检测等等。这些触发器部署在消费车辆中,进行了7轮静默模式的运转,这些触发器并不会对车辆下达任何指令,而输出的数据会和雷达数据和驾驶员本身行为进行比较。
最后生成的数据集中,特斯拉自动驾驶团队已经收集了1.5PB的数据,由100万个10秒视频和60亿物体标注组成。
特斯拉自动驾驶神经网络架构 / 特斯拉
为了充分利用这一数据集,特斯拉自动驾驶团队打造了一个高效的循环神经网络。数据经过多层次的网络结构,从而输出多个参数。这种架构为分布式分工创造了条件,当前特斯拉有一个由20人左右组成的团队,他们正在全力训练这一神经网络,负责各自的模块。
用来训练深度学习模型的超级计算机
为了处理如此庞大的工作量自然也需要强大的机器,特斯拉当前有三台用于自动驾驶开发的超算集群。其中最新的一台包含720个节点,每个节点都由8张英伟达A100 80GB加速卡组成,等于一台机器就内置了5760个GPU。该机器的算力达到了惊人的1.8 EFLOPS,配备了10PB的顶级NVME存储,速率达到1.6 TBps。
内部超级计算机 / 特斯拉
除此之外,为了保障自动驾驶的流畅运行,其自研的FSD自动驾驶芯片也有着强悍的性能。特斯拉的优势在于其垂直集成的开发,这意味着不论是其CPU、GPU还是NPU,都能最大限度地利用这一神经网络驱动的视觉方案。
FSD自动驾驶芯片 / 特斯拉
小结
目前特斯拉的FSD自动驾驶系统已经进入了测试阶段,已经有2000余名的车主在使用这一技术。特斯拉也在继续开发这一系统,加入更多的驾驶功能。
NHTSA对4月27日前后生产的Model Y评级 / NHTSA
不过,特斯拉抛弃毫米波雷达的做法也引来的一些是非,美国国家公路交通安全管理局(NHTSA)表示,取消毫米波雷达的Model 3和Model Y将失去具备部分先进安全功能的标签。尚不清楚这未来经过测试调研后,几款车型会不会重新获得这些认证,不过可以肯定的是,特斯拉已经打算在摄像头为主的纯视觉方案上坚定不移地走下去了。
在上月举办的机器视觉和模式识别国际会议(CVPR 2021)上,特斯拉AI主管Andrej Karpathy解释了为何特斯拉用不到激光雷达。Andrej Karpathy毕业于斯坦福大学,也是AI大神李飞飞的得意门生之一,他在毕业后成了OpenAI的一位研究员,随后被埃隆·马斯克亲自挖去特斯拉做AI主管。
低成本、易维护且方便更新的纯视觉系统
深度神经网络是自动驾驶技术的主要技术之一,通过处理车载摄像头传输的数据来分析道路、标志、汽车、障碍和行人。但深度学习在图像中检测物体往往会出现失误,因此多数自动驾驶公司,比如Waymo等,都采用激光雷达来绘制车身周围的3D地图,补全神经网络缺失的信息。
然而Andrej提到,激光雷达在自动驾驶上也有自己的难处,你必须用高成本的激光雷达预绘制环境,然后创建高分辨率地图,将街道和交通灯联系在一起,最后只能局限于这些地图来驾驶。不过,绘制每个地点的精确地图是相当困难的,并不是路测车辆收集构建好这些高分辨率地图就完事了,还需要长期的维持工作,很难保证这些基础设备和数据的更新工作。
特斯拉并没有采用激光雷达和高分辨率地图结合的方案,Andrej称“对特斯拉来说,一切都是初次发生的,单单靠车身上的八个摄像头”。经过几年的迭代,特斯拉的自动驾驶工作绝大多数都是由摄像头实现,以至于车身上其他的传感器开始“吃灰”。为此,特斯拉也在今年5月宣布,即日起北美制造的Model 3和Model Y也不再配备毫米波雷达,全面过渡到以摄像头为主,辅以超声波雷达的特斯拉视觉系统。
自动标注生成的数据集和高效的神经网络
在许多激光雷达和摄像头的参数性能比较中,测距往往都是摄像头的弱项。然而,人类本身也是用“眼镜”这一纯视觉方案来进行距离和速度判断的,那么人工神经网络能否做到这一点呢?Andrej称在过去几个月的研究工作中发现,这个问题的答案是肯定的。
特斯拉的工作室为了创建这样一个可以精确检测物体距离、速度和加速度的深度学习系统,将这一挑战视为监督式学习的问题。监督式学习是机器学习中常用的一个方法,此处则被用于在标注数据训练后,让神经网络学习如何检测物体和它们的附加属性。
而打造这样一个系统,需要的是大量的视频数据、清晰精确的标准数据和诸多极端情况组成的数据集。
特斯拉与其他具备数据采集能力的汽车品牌相比有着一个独到的优势,那就是数量。有了百万辆配备摄像头的汽车,特斯拉根本不愁数据量。
在雨雪等条件下依然能够正常运转的自动标注 / 特斯拉
那么这种标注是如何进行的呢?一种可行方案是依靠数据标注公司进行手工标注,但这样做的话不仅耗时耗力,成本也不低。特斯拉的自动标注技术结合了神经网络、雷达数据和人类审查。由于这一数据集是离线标注的,所以神经网络可以来回播放视频,将预测与事实进行比对,从而调整其参数,恰恰与实时运行的测试时推理相反。
这种离线标注还有一个好处,那就是特斯拉工程师得以实现无法部署在车上的密集运算型物体检测网络,将其用于低延迟的实时应用中去。而雷达的数据只是用于进一步验证神经网络的推理,这个过程还可以让人工介入,进行一些判断上的编辑、验证和调整工作。
为了实现更好的速度和加速度判断,在打造这一数据集的过程中,特斯拉团队花了4个月时间开发了221个触发器来指出物体检测系统上还需哪些调整,比如雷达与视觉对比不符、物体边框抖动、纯靠主摄像头进行的检测等等。这些触发器部署在消费车辆中,进行了7轮静默模式的运转,这些触发器并不会对车辆下达任何指令,而输出的数据会和雷达数据和驾驶员本身行为进行比较。
最后生成的数据集中,特斯拉自动驾驶团队已经收集了1.5PB的数据,由100万个10秒视频和60亿物体标注组成。
特斯拉自动驾驶神经网络架构 / 特斯拉
为了充分利用这一数据集,特斯拉自动驾驶团队打造了一个高效的循环神经网络。数据经过多层次的网络结构,从而输出多个参数。这种架构为分布式分工创造了条件,当前特斯拉有一个由20人左右组成的团队,他们正在全力训练这一神经网络,负责各自的模块。
用来训练深度学习模型的超级计算机
为了处理如此庞大的工作量自然也需要强大的机器,特斯拉当前有三台用于自动驾驶开发的超算集群。其中最新的一台包含720个节点,每个节点都由8张英伟达A100 80GB加速卡组成,等于一台机器就内置了5760个GPU。该机器的算力达到了惊人的1.8 EFLOPS,配备了10PB的顶级NVME存储,速率达到1.6 TBps。
内部超级计算机 / 特斯拉
除此之外,为了保障自动驾驶的流畅运行,其自研的FSD自动驾驶芯片也有着强悍的性能。特斯拉的优势在于其垂直集成的开发,这意味着不论是其CPU、GPU还是NPU,都能最大限度地利用这一神经网络驱动的视觉方案。
FSD自动驾驶芯片 / 特斯拉
小结
目前特斯拉的FSD自动驾驶系统已经进入了测试阶段,已经有2000余名的车主在使用这一技术。特斯拉也在继续开发这一系统,加入更多的驾驶功能。
NHTSA对4月27日前后生产的Model Y评级 / NHTSA
不过,特斯拉抛弃毫米波雷达的做法也引来的一些是非,美国国家公路交通安全管理局(NHTSA)表示,取消毫米波雷达的Model 3和Model Y将失去具备部分先进安全功能的标签。尚不清楚这未来经过测试调研后,几款车型会不会重新获得这些认证,不过可以肯定的是,特斯拉已经打算在摄像头为主的纯视觉方案上坚定不移地走下去了。
最新内容
手机 |
相关内容
位移传感器结构类型及工作原理与应
位移传感器结构类型及工作原理与应用,工作原理,类型,结构,位移传感器,常见,效应,FDV302P位移传感器是一种用于测量物体位移或位置的华为公开半导体芯片专利:可提高三维
华为公开半导体芯片专利:可提高三维存储器的存储密度,专利,存储密度,存储器,芯片,存储单元,调整,华为是全球领先的信息与通信技术解基于穿隧磁阻效应(TMR)的车规级电
基于穿隧磁阻效应(TMR)的车规级电流传感器,车规级,效应,导致,自旋,测量,电动汽车,随着电动汽车的快速发展和智能化驾驶技术的成熟,对豪威发布新款 4K 分辨率图像传感器
豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头,分辨率,新款,区域,像素,运行,图像,豪威科技最近发布了一款全新的4K分辨率BAS70晶振在激光雷达系统中的作用
晶振在激光雷达系统中的作用,作用,系统,激光雷达,晶振,可靠性,选择,激光雷达(Lidar)是一种利用激光进行测距的技术,广泛应用于自动驾驶光耦仿真器简介和优势
光耦仿真器简介和优势,仿真器,参数,接收器,设计方案,耦合,器件,光耦仿真器是一种用于模拟光耦合器件的工具,它可以帮助工程师在设计智能传感器助力打造数字经济数字世
智能传感器助力打造数字经济数字世界,数字,经济,传感器,助力,智能,及时发现,PCM1801U智能传感器是一种能够感知环境并将感知结果转低耗能,小安派-LRW-TH1传感器通用板
低耗能,小安派-LRW-TH1传感器通用板,一块板即可连接多种传感器!,传感器,多种,连接,一块,通用,接口,小安派-LRW-TH1传感器通用板是一款