首页 / 行业
微软开发了一种新的AI图像字幕算法
2020-10-15 14:09:00
微软开发了一种新的图像字幕算法,在某些有限的测试中,其准确率超过了人类。该人工智能系统已被用于更新该公司为视障人士提供的助理应用程序 “Seeing AI”,并将很快被纳入Word、Outlook和PowerPoint等其他微软产品中。在那里,它将被用于为图像创建alt文本等任务,这一功能对于提高无障碍性尤为重要。
这些应用包括微软自己的Seeing AI,该公司于2017年首次发布。Seeing AI利用计算机视觉为视障人士描述通过智能手机摄像头看到的世界。它可以识别家庭物品,阅读和扫描文本,描述场景,甚至识别朋友。它还可以用来描述其他应用中的图像,包括电子邮件客户端、社交媒体应用和WhatsApp等消息应用。
微软没有披露Seeing AI的用户数量,但Azure AI的企业副总裁Eric Boyd告诉The Verge,该软件是 “为盲人或低视力人士提供的领先应用之一”。Seeing AI已经连续三年被盲人和低视力iOS用户社区AppleVis评选为最佳应用或最佳辅助应用。
微软新的图像字幕算法将显著提高Seeing AI的性能,因为它不仅能识别物体,还能更精确地描述它们之间的关系。因此,该算法可以在看一张图片时,不仅能说出图片中包含哪些物品和物体(如 “一个人、一把椅子、一个手风琴”),还能说出它们之间的互动关系(如 “一个人坐在椅子上,正在拉手风琴”)。微软表示,该算法是其之前自2015年开始使用的图像字幕系统的两倍。
该算法在9月份发表的一篇预印论文中进行了描述,在一个被称为 “nocaps ”的图像字幕基准测试上取得了有史以来最高的分数。这是一个业界领先的图像字幕评分板,不过它有自己的限制条件。nocaps基准测试由超过166,000个人类生成的字幕组成,描述了从Open Images Dataset中提取的约15,100张图片。这些图片涵盖了一系列场景,从运动到假日抓拍,再到美食摄影等等。
责任编辑:YYX
最新内容
手机 |
相关内容
什么是带阻三极管,带阻三极管的基本
什么是带阻三极管,带阻三极管的基本结构、工作原理、电阻比率、常用型号、应用、检测、操作规程及发展历程,三极管,检测,工作原理,什么是高压接触器,高压接触器的组成
什么是高压接触器,高压接触器的组成、特点、原理、分类、常见故障及预防措施,高压,分类,闭合,用于,操作,损坏,AD694ARZ高压接触器是什么是射流继电器,射流继电器的基本
什么是射流继电器,射流继电器的基本结构、技术参数、工作原理、负载分类、如何选用、操作规程及发展历程,继电器,工作原理,分类,负什么是互感器,互感器的组成、特点、
什么是互感器,互感器的组成、特点、原理、分类、操作规程及发展趋势,发展趋势,分类,输入,计量,用于,信号,AD574AKD互感器是一种用于2023 年 3 季度了 DigiKey 新增 4
2023 年 3 季度了 DigiKey 新增 4 万多种现货零件,多种,零件,现货,季度,产品,原厂,全球领先的供应品类丰富、发货快速的商业现货技位移传感器结构类型及工作原理与应
位移传感器结构类型及工作原理与应用,工作原理,类型,结构,位移传感器,常见,效应,FDV302P位移传感器是一种用于测量物体位移或位置的重庆东微电子推出高性能抗射频干扰
重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片,芯片,推出,算法,抑制,音频,信号,重庆东微电子有限公司最近推出了一款高性能DigiKey 推出《超越医疗科技》视频
DigiKey 推出《超越医疗科技》视频系列的第一季,推出,医疗科技,健康,需求,产品,诊断,全球供应品类丰富、发货快速的现货技术元器件