首页 / 行业
阿里AI打破视觉对话识别纪录,AI的认知能力迈上新台阶!
2019-07-02 16:01:00
近日, 在第二届视觉对话竞赛Visual Dialogue Challenge中,阿里AI击败了微软、首尔大学等十支参赛队伍,获得冠军。
(阿里AI在视觉对话竞赛中得冠)
据了解,视觉对话竞赛由美国佐治亚理工大学、Facebook人工智能实验室(FAIR)等机构联合全球视觉技术领域顶级学术会议CVPR发起,是目前视觉对话领域最权威的竞赛之一。
该竞赛要求参赛的AI在看完近万张图片后,回答出人类对于任一图片任一内容的提问。竞赛结果显示,阿里AI以74.57%的准确率获得冠军,将上一届比赛的纪录提高了16.82%。在相同的数据集中,人类的准确率仅为64.27%。
传统的视觉AI主要针对目标的检测和识别,例如识别出图片是否是一只猫,但对复杂场景中目标之间的逻辑关系理解、推理能力较弱,无法回答“这只猫旁边的男生穿了什么颜色的衣服”等复杂问题,也难以将图片信息转化为人类理解的语言输出。
阿里AI的突破在于提出了“递归探索对话模型”,综合集成了图像识别、关系推理与自然语言理解三大能力,它通过高效利用标注信息学习出模仿人类认知复杂场景的思维方式,能够有效识别图片里的实体以及它们之间的关系,推理出图片所描述的事件内容,并通过对上下文进行有效建模,理解人类提出的问题及真实意图,给出自然准确的回复。
视觉对话是近年来快速崛起的AI研究方向,目的在于教会机器用自然语言与人类讨论视觉内容。如果说视觉识别技术,让机器具备了视觉能力;那么视觉对话技术,则使得机器拥有了对真实视觉世界的理解与推断能力,意味着AI的认知能力将迈上新的台阶。
据了解,这项技术未来将被应用在人机交互诸多场景:地震后在废墟中寻找幸存者的救援机器人,能够更加及时、高效地综合指挥指令和场景信息作出行动;视障人士可以通过提问阿里AI,理解网络照片中的内容,了解自身所处的周围环境;无人驾驶车辆对影响因子的意图理解会更为准确,乘客的乘坐体验更好。
最新内容
手机 |
相关内容
AI换脸换声太逼真!遇到AI视频诈骗如
AI换脸换声太逼真!遇到AI视频诈骗如何识别?,活动,社交媒体,确认,账户,验证,真实照片,随着DCP010505BP-U人工智能技术的不断发展,AI换脸阿里平头哥发布首颗SSD主控芯片:镇
阿里平头哥发布首颗SSD主控芯片:镇岳510,平头,芯片,物联网,性能,阿里巴巴,支持,阿里平头哥是指阿里巴巴集团的CTO张建锋,他在宣布了阿高精度3D视觉技术,助力工业机器人实
高精度3D视觉技术,助力工业机器人实现汽车零部件高效上下料,工业机器人,助力,视觉,高精度,3D,算法,高精度3D视觉技术在工业机器人上接近+触摸+按压:AI技术赋能,这个三合
接近+触摸+按压:AI技术赋能,这个三合一人机交互方案,太酷了!,方案,人机交互,三合,按压,智能,识别,近年来,随着人工智能(AI)技术的迅猛发展,什么是硅光电三极管,硅光电三极管的
什么是硅光电三极管,硅光电三极管的基本结构、优缺点、工作原理、应用、识别方法、检测、如何选用及发展历程,三极管,识别,工作原理嵌入式视觉技术如何赋予机器观察能
嵌入式视觉技术如何赋予机器观察能力,能力,视觉,嵌入式,跟踪,特征,计算,嵌入式视觉技术是一种将人的视觉能力赋予机器的技术。通过机器人自动上下料,工业智能化进程的
机器人自动上下料,工业智能化进程的重要里程碑,进程,里程碑,自动,错误,危险,安全性,机器人自动上下料是工业智能化进程的重要里程碑,Prophesee全球最小基于事件的视觉
Prophesee全球最小基于事件的视觉传感器,瞄准超低功耗边缘智能设备,边缘,功耗,视觉,传感器,事件,适合,Prophesee是一家位于法国的人