首页 / 行业
视频网站为了降本纷纷砍画质,为何只有谷歌仍在坚持?
2022-08-30 07:54:00
在大型数据中心里,视频处理或许是当下占比最高的关键工作负载,疫情期间,人们在视频细分的产品上所花时间越来越多。对于云服务厂商来说,视频市场带来的红利仍然在持续,但对于视频网站和视频app等产品来说,他们面临的服务器成本压力也在与日俱增。
云平台的视频转码单价/ 华为云
比如随着流量激增,Teams、Zoom和腾讯会议等服务都出现了崩溃的事故,有的视频网站面临巨额的服务器费用和下跌的营收,也开始采取压缩画质等策略。尽管服务器端的摩尔定律依然在延续,但面对视频处理的计算需求,已经开始有些力不从心了,哪怕在专业处理图形的GPU加持下也是如此。如果不采用特定领域的ASIC硬件加速器,成本压力将会继续堆积。
全球最大视频网站的策略
作为全球最大视频网站Youtube的所有者,照理说谷歌面临的压力是最大的,但Youtube从疫情至今,却基本维持着稳定的状态,而且视频质量也是同行中最高的那一档。能维持住这样服务器压力,靠的并不是传统的CPU+GPU商用服务器组合,而是谷歌自研的视频处理芯片VCU。
谷歌预见了真正大规模视频处理和其他消费级服务器用例的根本差异,尤其是在数据多样性、质量要求、吞吐量和成本上。所以谷歌打算从计算资源最昂贵的一块,也就是视频处理这块着手,设计自己的VCU处理单元,解决从视频共享、照片与视频云存储、直播到云游戏等一众业务上的视频处理难题。
VCU的设计思路
谷歌的VCU全名为视频编码单元,单个芯片集成了10个编码核心、3个解码核心。从谷歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。
VCU芯片布图规划/ 谷歌
每个VCU服务器系统由10块板卡组成,每块板卡上配有2个VCU芯片。谷歌将一切非转码的处理工作丢给非VCU服务器,而VCU服务器则尽可能靠近视频上传的位置,降低延迟从而降低转码所需时间。
但我们要知道一点,视频处理专用的服务器成本之所以如此之高,并不是只有GPU价格高、性能要求高等原因,还有就是低利用率的问题。并非所有的转码工作都能用满芯片的硬件资源,所以谷歌采用了固件管理的队列来启用并发转码。
VCU加速卡/ 谷歌
比如某个操作是“将这一帧的画面编码为VP9位流,”那么应用程序负责将指令写入队列中,固件则只负责队列调度和编解码器核心的激活。如此一来编程只发生在应用层面,避免了ASIC这类硬件先天缺乏FPGA那样灵活的可编程性,也符合数据中心快节奏的软件迭代速度,同时又确保了没有一个编码核心能闲下来。
谷歌也给出了VCU与主流方案的差距,比如与纯英特尔SkylakeCPU转码或4个英伟达T4 GPU转码的对比,8个VCU的配置在进行H.264或VP9转码时,性价比最高可达前两种方案的20倍以上。
专用视频处理硬件的未来
对于流量快速增长,负载持续增加的大规模数据中心和云服务来说,谷歌这种方案无疑是最省成本的。阿里巴巴、亚马逊等云服务厂商纷纷开始了自研服务器芯片计划,这点人尽皆知,但从设计上就可以看出,这些芯片还是面向在通用服务器或AI服务器的,与视频沾边的应用也大部分是AI视频识别类的。
而目前最让视频产品头疼的转码这块,却少有ASIC产品的出现,不少加速卡做成了PCIe的尺寸规格,但其实仍是基于CPU,尤其是编解码性能稍强的英特尔CPU。反倒是Xilinx的AlveoU200/250 FPGA加速卡在性能上更有优势,但考虑到这些加速卡高昂的价格,目前云服务平台还没有普及开来,甚至还在用老版的UltraScaleFPGA。
与此同时,AV1这类压缩率更高编码的编码标准提出了更高的硬件要求,谷歌的VCU虽然性价比极高,也没有支持AV1这一标准,或许我们会在下一代VCU上看到。
云平台的视频转码单价/ 华为云
比如随着流量激增,Teams、Zoom和腾讯会议等服务都出现了崩溃的事故,有的视频网站面临巨额的服务器费用和下跌的营收,也开始采取压缩画质等策略。尽管服务器端的摩尔定律依然在延续,但面对视频处理的计算需求,已经开始有些力不从心了,哪怕在专业处理图形的GPU加持下也是如此。如果不采用特定领域的ASIC硬件加速器,成本压力将会继续堆积。
全球最大视频网站的策略
作为全球最大视频网站Youtube的所有者,照理说谷歌面临的压力是最大的,但Youtube从疫情至今,却基本维持着稳定的状态,而且视频质量也是同行中最高的那一档。能维持住这样服务器压力,靠的并不是传统的CPU+GPU商用服务器组合,而是谷歌自研的视频处理芯片VCU。
谷歌预见了真正大规模视频处理和其他消费级服务器用例的根本差异,尤其是在数据多样性、质量要求、吞吐量和成本上。所以谷歌打算从计算资源最昂贵的一块,也就是视频处理这块着手,设计自己的VCU处理单元,解决从视频共享、照片与视频云存储、直播到云游戏等一众业务上的视频处理难题。
VCU的设计思路
谷歌的VCU全名为视频编码单元,单个芯片集成了10个编码核心、3个解码核心。从谷歌VCU芯片的布图规划也可以看出,大部分区域都分配给了编码器核心,其次是四通道的LPDDR4内存,不仅提供边带错误纠正,也提供芯片所需的带宽。
VCU芯片布图规划/ 谷歌
每个VCU服务器系统由10块板卡组成,每块板卡上配有2个VCU芯片。谷歌将一切非转码的处理工作丢给非VCU服务器,而VCU服务器则尽可能靠近视频上传的位置,降低延迟从而降低转码所需时间。
但我们要知道一点,视频处理专用的服务器成本之所以如此之高,并不是只有GPU价格高、性能要求高等原因,还有就是低利用率的问题。并非所有的转码工作都能用满芯片的硬件资源,所以谷歌采用了固件管理的队列来启用并发转码。
VCU加速卡/ 谷歌
比如某个操作是“将这一帧的画面编码为VP9位流,”那么应用程序负责将指令写入队列中,固件则只负责队列调度和编解码器核心的激活。如此一来编程只发生在应用层面,避免了ASIC这类硬件先天缺乏FPGA那样灵活的可编程性,也符合数据中心快节奏的软件迭代速度,同时又确保了没有一个编码核心能闲下来。
谷歌也给出了VCU与主流方案的差距,比如与纯英特尔SkylakeCPU转码或4个英伟达T4 GPU转码的对比,8个VCU的配置在进行H.264或VP9转码时,性价比最高可达前两种方案的20倍以上。
专用视频处理硬件的未来
对于流量快速增长,负载持续增加的大规模数据中心和云服务来说,谷歌这种方案无疑是最省成本的。阿里巴巴、亚马逊等云服务厂商纷纷开始了自研服务器芯片计划,这点人尽皆知,但从设计上就可以看出,这些芯片还是面向在通用服务器或AI服务器的,与视频沾边的应用也大部分是AI视频识别类的。
而目前最让视频产品头疼的转码这块,却少有ASIC产品的出现,不少加速卡做成了PCIe的尺寸规格,但其实仍是基于CPU,尤其是编解码性能稍强的英特尔CPU。反倒是Xilinx的AlveoU200/250 FPGA加速卡在性能上更有优势,但考虑到这些加速卡高昂的价格,目前云服务平台还没有普及开来,甚至还在用老版的UltraScaleFPGA。
与此同时,AV1这类压缩率更高编码的编码标准提出了更高的硬件要求,谷歌的VCU虽然性价比极高,也没有支持AV1这一标准,或许我们会在下一代VCU上看到。
最新内容
手机 |
相关内容
DigiKey 推出《超越医疗科技》视频
DigiKey 推出《超越医疗科技》视频系列的第一季,推出,医疗科技,健康,需求,产品,诊断,全球供应品类丰富、发货快速的现货技术元器件新一代8通道脑电采集芯片研制成功,
新一代8通道脑电采集芯片研制成功,铠侠与西部数据已中止合并谈判,合并,芯片,脑电,新一代,通道,产品,近日,一项重要的科技突破在全球范浅析动力电池熔断器的基础知识及选
浅析动力电池熔断器的基础知识及选型,动力电池,时切,系统安全,作用,产品,系统,BA4558F-E2动力电池熔断器是用于保护动力电池系统安变频器过载保护和过流保护有什么区
变频器过载保护和过流保护有什么区别?,变频器,频率,超过,损害,方法,负载,BCP55变频器过载保护和过流保护是两种不同的保护机制,用于保MPS全系列电机驱动产品,助力新能源
MPS全系列电机驱动产品,助力新能源汽车实现更好的智能化,产品,新能源汽车,助力,全系列,系统,实时,随着新能源汽车的快速发展,电机驱动探秘英伟达显卡的制造之路 | 英伟
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?,英伟达,模型,中国大,显卡,方案,能力,英伟达(NVIDIA)是全球领先的图形工业物联网模块应用之砂芯库桁架机
工业物联网模块应用之砂芯库桁架机器人远程无线控制,模块,物联网,控制,操作,安全性,无线通信,砂芯库桁架机器人是一种用于制造业中DigiKey 凭借品牌更新荣获四项 Mar
DigiKey 凭借品牌更新荣获四项 MarCom 大奖,四项,机构,明尼苏达州,公司,行业,产品,全球供应品类丰富、发货快速的商业现货技术元件