首页 / 行业
微软新AI项目为文档和电子邮件的图像添加字幕
2020-11-18 10:54:00
微软的一项新AI项目旨在自动为文档和电子邮件中的图像添加字幕,以便视觉障碍软件读取图像。
微软的研究人员在有关预印本存储库arXiv的论文中解释了他们的机器学习模型的原理。
该模型使用可视语音词汇预训练(VIVO),它利用大量成对的图像标签数据来学习视觉词汇。然后,使用带有适当字幕的图像的第二个数据以帮助教AI如何最好地描述图片。
“理想情况下,每个人都应在文档,网络,社交媒体中为所有图像添加替代文本,因为这可以使盲人访问内容并参与对话。但是,可惜,人们却没有。”微软AI平台小组的软件工程经理Saqib Shaikh说。
总体而言,研究人员希望AI能够提供Microsoft现有字幕系统两倍的性能。
为了对新AI的性能进行基准测试,研究人员将其纳入了“无上限”挑战。在撰写本文时,Microsoft的AI现在在其排行榜上排名第一。
“无上限的挑战实际上是如何描述您在训练数据中没有看到的那些新颖的物体?”微软研究实验室的首席研究经理王丽娟评论道。
希望使用Microsoft自动字幕AI来构建应用程序的开发人员已经可以这样做,因为Azure Cognitive Services的Computer Vision软件包中提供了该功能。
微软令人印象深刻的SeeingAI应用程序将使用新的AI进行更新,该应用程序使用计算机视觉描述视力障碍者的周围环境。
“图像字幕是可以实现广泛服务的核心计算机视觉功能之一,”Azure AI认知服务的CTO黄表示。
黄继续说:“我们AI的这一突破以Azure为平台,以服务于更多客户。” “这不仅是研究上的突破;在Azure上将突破转化为生产所需的时间也是突破。”
改进的自动字幕功能也有望在今年晚些时候在Outlook,Word和PowerPoint中使用。
责任编辑:YYX
最新内容
手机 |
相关内容
豪威发布新款 4K 分辨率图像传感器
豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头,分辨率,新款,区域,像素,运行,图像,豪威科技最近发布了一款全新的4K分辨率BAS70安森美宣布其Hyperlux 图像传感器
安森美宣布其Hyperlux 图像传感器系列已集成到瑞萨R-Car V4x平台,平台,到瑞,集成,图像,汽车制造商,辅助功能,安森美(ON SemiconductoMediaTek 发布天玑 9300 旗舰 5G
MediaTek 发布天玑 9300 旗舰 5G 生成式 AI 移动芯片,开启全大核计算,旗舰,芯片,生成式,5G,支持,移动设备,MediaTek 是一家全球领先索尼发布堆叠式工业图像传感器 分
索尼发布堆叠式工业图像传感器 分辨率实现业界突破,突破,业界,分辨率,索尼,集成,帧率,索尼近日发布了一款堆叠式工业图像传感器,该传深入探索RISC-V处理器架构背景,思尔
深入探索RISC-V处理器架构背景,思尔芯助力“香山”不断演进,处理器,助力,兼容性,指令集架构,需求,项目,RISC-V(Reduced Instruction S思特威重磅推出5MP高分辨率、高帧
思特威重磅推出5MP高分辨率、高帧率面阵CMOS图像传感器新品—SC535HGS,推出,帧率,传感器,图像处理,性能,运动分析,思特威(Socionext)思特威AI系列再添三款全性能升级图
思特威AI系列再添三款全性能升级图像传感器新品,性能,款全,升级,图像质量,传感器,动态,近日,全球领先的图像传感器制造商思特威(Sony)银牛视觉AI处理器采用芯原创新的IS
银牛视觉AI处理器采用芯原创新的ISP IP,处理器,视觉,智能,灵活性,图像质量,能力,银牛视觉AI处理器是一款采用了芯原创新的ISP IP的A