首页 / 行业
人工智能可以像人一样描述图像?
2020-10-16 10:58:00
准确地描述图像,而不仅仅是像一个毫无头绪的机器人,长期以来一直是人工智能的目标。2016年,谷歌表示,其人工智能可以为图像添加几乎与人类一样的字幕,准确率为94%。现在微软说它已经更进一步:研究人员已经建立了一个比人类更精确的人工智能系统,以至于它现在位于nocaps图像捕获基准的排行榜首位。微软声称,它比自2015年以来一直使用的图像字幕模型好两倍。
虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在Seeing AI中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在PowerPoint中用于Web、Windows和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。
Azure AI首席副总裁埃里克博伊德说:“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户:它让你更容易在搜索引擎中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在好处,力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。
黄学冬在一篇博客文章中说:“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
但是,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。
责任编辑:YYX
最新内容
手机 |
相关内容
豪威发布新款 4K 分辨率图像传感器
豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头,分辨率,新款,区域,像素,运行,图像,豪威科技最近发布了一款全新的4K分辨率BAS70所有遥不可及,终因AI触手可及
所有遥不可及,终因AI触手可及,出行,平台,无人驾驶汽车,导致,人工智能,学习,人类历史上,有许多事物曾被认为是遥不可及的,然而随着科技面向6G+AI,鹏城云脑的演进
面向6G+AI,鹏城云脑的演进,鹏城,人工智能,数据存储,脑可,智能终端,智能,随着科技的不断进步,人们的生活方式也在不断改变。6G+AI(人工安森美宣布其Hyperlux 图像传感器
安森美宣布其Hyperlux 图像传感器系列已集成到瑞萨R-Car V4x平台,平台,到瑞,集成,图像,汽车制造商,辅助功能,安森美(ON Semiconducto可穿戴传感器能够实现准确的实时检
可穿戴传感器能够实现准确的实时检测,检测,实时,传感器,可穿戴,高精度,数据传输,可穿戴传感器(Wearable Sensors)是一种集成在人体上探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形Transphorm推出TOLL封装FET,将氮化
Transphorm推出TOLL封装FET,将氮化镓定位为支持高功率能耗人工智能应用的最佳器件,支持,定位,推出,高功率,封装,器件,加利福尼亚州戈MediaTek 发布天玑 9300 旗舰 5G
MediaTek 发布天玑 9300 旗舰 5G 生成式 AI 移动芯片,开启全大核计算,旗舰,芯片,生成式,5G,支持,移动设备,MediaTek 是一家全球领先