随着视频行业逐渐进入全平台、全媒体化后,视频行业在数据中心的底层技术上不要不断投入,更要求快速创新。这也促使搜狐和英特尔早在2011年就创建了联合实验室,英特尔最新技术会早于上市之前数月就率先引入搜狐;搜狐也会将新的业务场景迁移到英特尔的最新技术和产品,以新场景+新技术的方式确保视频用户的视听体验。
其中,视频转码是一项关乎视觉体验的重要技术:一是HDR转码,搜狐视频自主研发的HDR转码系统,将线上各种片库进行HDR转码,弥补了HDR视频源不足的缺陷,从而大幅提升了视频效果;二是超分辨率,搜狐视频开发了基于深度学习的视频超分辨率转码系统,实现将现有的蓝光视频到4k视频的无损转换,可以提供大量的高质量4k视频源超分辨率;三是老片翻新,搜狐视频利用AI与转码系统相结合构建了全自动的老片翻新转码系统,提升了大量老片的画面质量。
值得一提的是,云转码是搜狐视频的强项,可以实现实时转码,即用户在上传的时候就已经实现转码,上传完成时转码也基本完成,可以立即分发。此外,一键实现添加滤镜,人脸识别,也是AI提升用户体验的用武之地。
带宽成本高、时延时间长是视频行业面临的首要技术问题,而搜狐视频多地互联,多点同步,多种转码,就要求具备稳定性高,性能高效,技术协同的计算平台。尤其值得一提的是,目前搜狐线上视频全部采用CPU进行转码,发挥了英特尔CPU技术和生态的巨大优势,因为英特尔CPU的指令级优化是GPU上完全不具备的。据悉,应用CPU转码,片源数量庞大的搜狐视频片库在三个月内就完成了所有片源的视频转码,将老片改头换面。为此,搜狐视频在视频转码系统中最新应用了英特尔第二代至强可扩展处理器和英特尔傲腾固态硬盘。
此外,搜狐视频和英特尔展开了多项联合创新,除了硬件在软件和人工智能等方面也一同合作,比如搜狐视频与英特尔在软件定义存储的性能优化、语音识别应用和推荐系统的加速与优化、DPDK网络负载均衡加速等方面也有很多探索,这对加速搜狐视频在深度学习领域的应用发挥了重要的作用。
大数据和AI融入工作负载已经是大势所趋,它们在最火爆的短视频领域应用更是如火如荼。快手的 崛起首先让业界看到了视频行业还可以迅速切分出短视频这个潜力巨大的细分领域。
诞生于2013年7月,彼时4G网络和智能手机开始普及,快手也算自带科技基因。在后续的发展中,快手逐步证明自己“应科技而生”——使用包括大数据、机器学习、深度学习等技术用机器代替人力完成内容审核,并在内容生产、理解、分发、消费、互动等业务闭环的各个环节优化用户体验。
如果你是短视频app深度用户,“娃娃脸”模板你肯定玩过。别小看这么一个看似简单快捷的功能,它实际上是在移动端实时实现的GAN技术,类似于iPhone手机上的emoji功能。最大的不同是只有在iPhone X以上的机型才能实现的emoji功能,到了快手这里,哪怕用户使用的是一千元以下的机型依旧可以变换自如。
现在,快手数据总量超过EB级,每天的请求数超过2亿,已经俨然成为一家AI+大数据驱动的公司。它对数据中心在存储、网络、计算三个方面的需求很明确:日均新增超过1500万个短视频,带来内容数据、行为数据以及随之而来的要对数据进行特征提取对存储的挑战;在训练和推理中因为特征参数越来越多,深度学习模型越来越深,模型越来越大,对传输网络带来挑战;千亿级的展示给计算和内存带来挑战。
这也使得快手成为第一批采用CPU+FPGA异构计算的企业。与GPU相比,FPGA因低功耗、低延迟、高性能、可编程等特点,已成为线上AI推理平台的重要选项;而GPU并不擅长推理应用场景,而被广泛应用在AI训练平台。此外,FPGA相对GPU还有一个独特的优势——具备网卡口,这也源于它最早应用在通信领域。而针对FPGA相对劣势——软件开发难,英特尔推出了OpenCL的开发语言,从而降低了开发难度和开发周期。
为此,快手基于英特尔FPGA提供的PAC A10、E3S10和PAC S10板卡,已经构建出了三大类型的异构计算平台,并将在数据中心部署FPGA的创新应用归结为既要“上天”,又要“入地”。
“上天”指的是FPGA是部署在云上的,首要问题是需要在数据中心找到合适的业务场景,能够提供有价值的解决方案,它需有一定的通用性和规模化。具体体现为提高业务的服务容量,这需要充分利用FPGA的优势之一:确定性的低延时,来降低线上服务的延时。另外也需要采用一些高层次的开发语言(如OpenCL,甚至OpenVINO这种推理应用框架)来加速硬件交付,以匹配软件开发的速度。
“入地”则针对的是部署,成本、可靠性、稳定性、能耗比上的竞争力一个也不能少。另外,快手还利用容器实现规模化和弹性部署。具体实现来说,让FPGA分担计算为主的工作负载实现DRN(Deep Ranking Network)加速,消除排序网络在业务高峰期的抖动;通过分块完成矩阵乘法来实现算法到FGPA阵列结构的映射;采用Systolic Array结构,通过片上大容量分布式SRAM,满足计算单元高算力、高带宽的需求,并降低了功耗。用三个简洁的接口将用软件封装好的硬件交付给业务使用,满足动态更新的要求,提供充足的算力。
此外,在数据处理方面,为了优化视频检索的时间,提升高并发下的检索效率,快手抛弃了受限于内存价格和单台服务器上内存容量的KV数据库,转投英特尔傲腾数据中心级持久内存构建了异构存储,在Redis和推荐系统中都所有应用。通过实践,快手发现在满足业务性能需求的前提下,用傲腾持久内存代替DRAM内存,使得快手该存储系统整体TCO大幅降低,AI算法效率大幅提升。
从搜狐视频和快手的最新实践中可以发现,它们在创新应用场景下都大量采用了CPU和FPGA技术,虽然GPU因为AI的兴起成为第一批异构计算的受益者,但是FPGA真正崛起,而CPU也随着新一代技术的更新向多元化应用进一步拓展。