首页 / 行业
谷歌研究人员利用3D卷积网络打造视频生成新系统
2019-06-02 09:30:00
谷歌研究人员利用3D卷积网络打造视频生成新系统,只需要视频的第一帧和最后一帧,就能生成完整合理的整段视频,是不是很神奇?
漫画书秒变动画片了解一下?
想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?
这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。
“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉和机器学习技术的进步正在使这个目标的实现越来越接近。”
原理与模型结构
这套AI系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2D卷积图像解码器,3D卷积潜在表示生成器,以及视频生成器。
图1:视频生成模型示意图
图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。
研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。
图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。
实验结果
为了验证该方法,研究人员从三个数据集中获取视频 - BAIR机器人推送,KTH动作数据库和UCF101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由AI系统负责生成。
研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达Tesla V100显卡平台上的训练时间约为5天。结果如下表所示:
表1:我们报告了完整模型和两个基线的平均FVD,对每个模型和数据集重复10次,每次运行100个epoch,表中FVD值越低,表示对应生成视频的质量越高。
表2:使用直接3D卷积和基于的替代方法的模型的平均SSIM
RNN(SDVI)或光流(SepConv和SuperSloMo),数值越高越好。
研究人员表示,AI生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成技术研究提供了一个有用的替代视角。”
最新内容
- Efuse是什么?聊聊芯片级的eFuse
- 英飞凌推出XENSIV胎压传感器,满足智能胎压监测系统的需
- FPGA学习笔记:逻辑单元的基本结构
- 创造多样信号的万能工具:函数/任意波形发生器
- 位移传感器结构类型及工作原理与应用
- 开关电源供应器的功能、应用场景以及重要性
- 重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片
- 拒绝一次性芯片,新技术:无线升级芯片
- 芯片迈向系统化时代:EDA软件的创新之路
- 智能安全帽功能-EIS智能防抖摄像头4G定位生命体征监测
- 卫星应用受关注,GNSS导航芯片/模块发展加速
- AI边缘智能分析设备:智慧食堂明厨亮灶的智能化应用
- 美光低功耗内存解决方案助力高通第二代骁龙XR2平台
- 浅谈芯片常用的解密器
- 电路板技术水平和质量水平,影响着机器人赛道的发展前景
- 直播回顾 | 宽禁带半导体材料及功率半导体器件测试
- 写flash芯片时为什么需要先擦除?
- DigiKey 凭借品牌更新荣获四项 MarCom 大奖
- 高精度3D视觉技术,助力工业机器人实现汽车零部件高效上
- 不只是芯片 看看传感器技术我们离世界顶级有多远
- 加特兰毫米波雷达SoC芯片赋能室内安防新应用
- 所有遥不可及,终因AI触手可及
- 一种基于聚合物的化学电阻式传感器使患者检测更容易
- MTK天玑9300重磅发布:全大核时代到来,330亿参数AI大模型
- 如何测量温度传感器的好坏?
- ACCEL光电芯片,性能超GPU千倍,新一代计算架构将更早来临
- 如何利用示波器快速测量幅频特性?有何注意事项?
- 射频连接器使用技巧与注意事项
- STC15W芯片A/D、D/A转换的简单使用
- 群芯微车规级认证的光电耦合器备受电池BMS和电驱电控
- 芯朋微:服务器配套系列芯片已通过客户验证 可应用于AI
- 新能源高压连接器高压互锁(HVIL)功能详解
- FPGA和AI芯片算哪一类?芯片的不同分类方式
- MPS全系列电机驱动产品,助力新能源汽车实现更好的智能
- 基于穿隧磁阻效应(TMR)的车规级电流传感器
- 豪威发布新款 4K 分辨率图像传感器,适用于安防摄像头
- 苹果发布M3系列新款MacBook Pro/iMac:业界首批PC 3nm芯
- 硅谷:设计师利用生成式 AI 辅助芯片设计
- 电容式触摸按键屏中应用的高性能触摸芯片
- DigiKey 推出《超越医疗科技》视频系列的第一季

手机 |
相关内容
多用途可回收纳米片面世,可用于电子
多用途可回收纳米片面世,可用于电子、能源存储、健康和安全等领域,能源,健康,传感器,结构,用于,芯片,近年来,纳米技术的快速发展给各梦芯科技独立北斗芯片模块MXT2721
梦芯科技独立北斗芯片模块MXT2721隆重发布,芯片,北斗,模块,能力,导航,支持,梦芯科技是一家致力于研发和生产半导体产品的高科技公司半导体主控技术:驱动自动驾驶革命的
半导体主控技术:驱动自动驾驶革命的引擎,自动驾驶,交通,自动驾驶系统,数据,车辆,自动,随着科技的不断进步,自动驾驶技术已经成为现实晶振在激光雷达系统中的作用
晶振在激光雷达系统中的作用,作用,系统,激光雷达,晶振,可靠性,选择,激光雷达(Lidar)是一种利用激光进行测距的技术,广泛应用于自动驾驶Arbe 4D成像雷达以高分辨率雷达技
Arbe 4D成像雷达以高分辨率雷达技术和先进处理技术消除“幽灵刹车”问题,刹车,成像,分辨率,系统,目标,数据,Arbe 4D成像雷达是一种浅析动力电池熔断器的基础知识及选
浅析动力电池熔断器的基础知识及选型,动力电池,时切,系统安全,作用,产品,系统,BA4558F-E2动力电池熔断器是用于保护动力电池系统安高精度3D视觉技术,助力工业机器人实
高精度3D视觉技术,助力工业机器人实现汽车零部件高效上下料,工业机器人,助力,视觉,高精度,3D,算法,高精度3D视觉技术在工业机器人上智能家居中的MEMS传感器
智能家居中的MEMS传感器,传感器,智能家居,控制,用户,温度传感器,系统,MEMS(微机电系统)传感器是智能家居中的关键技术之一。它们是一