本篇报道围绕2018年上海市技术发明奖一等奖项目《面向移动终端的可视媒体通信及处理关键技术与应用》展开,该奖项由上海交通大学电子信息学院熊红凯教授领衔的团队获得。

7.1

道路拥堵中……

“缓冲中……”“正在加载……”“正在缓冲,请稍后……”看视频的我们最闹心的就是看到如此字样,莫名卡顿。

看到不停转动的“小宇宙”,不知正在读文章的你们是否已经抓狂。

这时不可避免地就要唠叨上几句:“网速太慢了!”“太卡了!”

那么“网速慢”“卡顿”表象之下,有哪些深层次的原因呢?

除了宽带、手机质量及内存之外,追溯到源头,视频太大导致传输过程的“堵车”是脱不了干系的。

我们需要知道一个前提条件,视频数据不能直接传输而必须依据特定的协议被封装入数据包中。视频信号中包含很多的信息量,并且受到网络带宽的限制,在处理和传输视频内容的时候,需要对视频进行压缩编码来节省传输中所需的带宽与存储空间,才可以在网络上传输或者在磁盘上存储。举个例子,一个普通的电影信息量很大,如果不经过压缩直接使用原始数据,就会占用几十G甚至几百G的空间,这些数据如果是从互联网上下载的话,下载时间长得不可接受,经过压缩编码之后,可能也就变成了1G~2G大小。

简而言之,对视频进行压缩编码就是为了减小视频占用的容量。数字视频实质上就是一帧帧连续的图像,虽然一帧图像的大小并不大,但它们累计起来就会占据非常大的空间,我们没有那么多的地方存储原始数据,那么只有一条路可以走,对它进行压缩。

视频的编码过程就是这个压缩过程。某种程度上,压缩编码技术就决定着这个视频的压缩情况。形象点说,视频数据如同一个快递,数据压缩成的“包裹”越小,因为携带方便轻快,在带宽一定的条件下,可以随身携带的“小包裹”就越多,传输的数据量越大,传输速率越快。相反,数据未被压缩或者压缩率不高,就很容易出现前文中提到的“缓冲”“加载”的情况。

随着移动互联网的发展,手机、平板等移动终端的使用人数和频率越来越多。各类视频传播方式如视频直播、体育赛事转播、视频会议及视频聊天等让人眼花缭乱,人们对视频质量的清晰度、流畅度、实时度的要求也越来越高。

而与此相矛盾的是,数据“存不下”、视频大得“传不动、声画质量不佳”等资源道路拥堵成为视频业务发展的重要瓶颈。据不完全统计,移动视频产生的数据量极其巨大,每两年就会增长一倍左右。但视频压缩率(指压缩后的数据量与压缩前的数据量之比)却跟不上移动视频数据量的增长速度,十年才增长一倍。

去冗余是长期研究热点

视频压缩的实质就是去除冗余信息。

那么何为冗余信息呢?

视频信号里面有大量冗余,这些冗余数据往往具有高相关性,占用大量不必要的空间,给视频网络传输或者介质存储带来巨大浪费。例如,视频描述的是连续的图像集合,前后两幅图像中有大量的图像是一样的,每秒播放的几十帧视频图片变化不大,不变的这些数据就是很明显的冗余。这些冗余完全可以去除。当这些冗余被去除,被占用的大量空间或者带宽就能够被节约或释放。

数据信息可以以如下公式表示:

数据量=信息量+冗余数据量

在保证视觉效果的前提下,通过视频的压缩算法,对原始数据变换、量化、编码,保留信息量,把实际存在的冗余信息去掉,从而减少它的数据量,达到减小占用容量的目的。

视频压缩是不是和我们平时用到的文件压缩是一个概念呢?

非也。目的虽然都是为了压缩所占空间,但是压缩技术是完全不同的,难度也无法相比较。WORD\EXCEL\照片等文件是单一静态的,而视频是一组有连续运动的数字图像的集合,有图像,有声音、且是动态的,压缩技术的难度明显不在一个量级。

目前,业内解决这一问题的最好方法就是可伸缩视频编码(SVC)。该技术在不同设备和网络环境下,用户可以很方便地只接收解码需要的那部分,无须解码那些不需要的部分,以达到视频快速流畅的体验效果。

其实,可伸缩视频编码的概念的提出已有相当长的历史,而伴随着视频编码技术的发展,相关的传输速率控制技术一直被研究。早期的可伸缩视频编码均没有获得成功,一方面是由于当时的可伸缩编码性能低下,另一方面是当时市场对可伸缩视频没有较高的需求。然而随着网络技术的不断演变以及可视化需求的不断提升,新的视频编码标准和网络传输技术一直是长期的研究热点,也是直至目前信息领域仍在解决的重要问题之一。

特殊“工具包“秒变神器

上海交通大学熊红凯教授从2005年起,就带领团队长期围绕“如何在低码率、低带宽下,提供更高清晰度和流畅度的影像“这一问题展开攻关,并最终提出了新的“可伸缩视频传输编解码技术”——面向移动终端的可视媒体通信及处理关键技术。

如何理解“可伸缩”?这并不是我们肉眼可见的视频画面可以变大变小。可伸缩性是一种对处理传输系统表示能力的度量指标,高可伸缩性代表一种弹性,在系统扩展成长过程中,影像呈现能够保证旺盛的生命力,通过很少的改动就能实现整个多媒体系统处理能力的线性增长,实现高吞吐量、低延迟、高性能。

“可伸缩视频传输编解码技术”通过特定的编码技术,将视频在时间、空间、质量的不同维度上,增强传输数据的弹性,把视频压缩得足够小,以达到更快的传输速率和更高的视频质量。熊红凯团队在原有的可伸缩技术基础上,制作了一个“工具包”,嵌入编码中。这个“工具包”可不容小觑,功能实用且创新。

“工具包”可以根据整体视频时间的长度,优先传输关键数据,不仅大幅提升了视频压缩效率,节省宽带,有效减少了视频卡顿和缓冲时间。在以往,视频需要下载到本地之后方可播放,如果一帧的数据没有传输完,视频就卡住了,特别是当遇到网络不稳定的情况时,视频下载可能就会变得极其缓慢。可伸缩技术采用了比帧更小的单元比特(bit,指信息量),用户就可以一边下载一边收听观看,而不需要等待整个文件下载到自己的机器后才观看。

同时,不同的终端用户对视频的尺寸、帧率和质量的要求也大相径庭,有的用户可以接受用低分辨率换取高传输速度,用标清替代高清已经完全可以满足他的观看需求。“工具包“可以适应不同的带宽条件、终端能力和视频流业务中的质量要求,根据需求输出适合用户的视频质量。数字视频是一组有连续运动的数字图像的集合。当人眼接收到的图像速率达到或超过每秒24帧时,人眼就会感觉接收到的是动态的视频而不是单一的静态图像。因此,该功能的创新让用户有了更多的选择,是追求画质,还是追求倍速,随意切换。这一突破较国际H.264 标准获得平均0.8 dB 的PSNR(Peak Signal to Noise Ratio,即峰值信噪比,是一种评鉴画质的客观标准)提升,较最新的视频压缩标准HEVC国际标准平均节约3.16%比特率。

另一大创新就是,在网络动态环境下,“工具包”可以对资源再分配,减少数据 “丢包”。丢包,顾名思义,在通信中是指通信数据包丢失。数据包丢失会导致视频画面出现马赛克现象、图像模糊、局部变形、图像静止等等,也会导致音频失真、间断甚至中断等。如果发生在视频会议中,可能就会导致幻灯片变形、翻页速度减慢、会议中断、增加调试与等待,严重降低了视频会议的质量和效益。

在以往的视频传输中,网络只会确定一条路由器上的路线,一旦路由器“开小差”丢了数据,视频就会缺损。而“工具包”增强了“鲁棒性”(鲁棒性,可以理解为健壮性,在发生故障时仍能保持稳定),为数据传输拓展了新的路径,多了一条备选路径,重新分配带宽、缓存、时延。一旦原规划传输路径出现异常,网络高速发生了拥堵,视频数据就可以自动选取最优路线,以保证传输的速率达到最高。相较代表性的分布式优化算法能降低50%的收敛时间。同时,团队在国际互联网标准化组织IETF建立P2P流媒体工作组,完成3项国际标准制定。

除了探索压缩视频信息的编解码技术,熊红凯团队也将信息识别的编解码技术纳入项目。一份完整的视频信息,由视频、音频和辅助信息组成。辅助信息是指那些为了帮助人们更好理解视频信息的字幕、解说框、弹幕等信息,并可以实现与观影者互动。这项技术可以先从视频编码的目标位置上识别出指定的符号,再将符号信息进行编码存放进视频的辅助信息。

例如,可以识别出视频里某偶像所穿的服装颜色、品牌,并在播放时显示出品牌名称,甚至购买链接。同时,通过丰富的数据库,辅助信息中不仅可以编入表演者的服装颜色、品牌这些简单的信息,还可以在没有表演者的场景图像中直接生成带人物的图像。与国际主流方法(如微软研究院、加州大学等研发的技术)相比,这项技术的语义提取精度及语义编码效率分别提升10%以上。这也是在国际上首次提出的针对目标位置语义信息的编码技术,能够节约10%以上的编码率。

在移动终端可视媒体通信及处理关键技术上,熊红凯团队解开了一个个难题,也取得一个个突破。经中国移动现网测试,应用本项目成果的可视电话体验通话视频帧率提升到60%,音视频同步延迟减少30%,视频掉帧率减少30%,视频文件缓冲时间缩短50%,大幅改善了移动可视媒体通信与处理的效率和体验。

数十位国内外院士和国际权威学者引用并肯定上述成果,并评价“提出的可伸缩视频传输技术,突破了现有方法性能局限”。同时,部分项目成果已进入目前最广泛普及的国际视频压缩标准H.264/MPEG-4 AVC,打破了核心技术长期受制于发达国家专利和标准的垄断格局。

该技术在智能手机可视电话、在线视频直播、智能前端监控等领域应用推广,大幅度提高了移动视频的编解码与传输效率。通过产学研合作,相关关键技术成果还集成、应用在上海航天技术基础研究所的航天高速摄像视频分析和处理、上海市公安局的智能前端监控系统和大尺度人群目标分析检测,均得到充分肯定。项目应用推广三年后,就实现销售额16.98 亿元,利润 0.8 亿元,利税 0.63 亿元,创收外汇0.35亿美元。

深度学习,探索人工智能方向

视频压缩没有最小,只有更小。

在目前普及的国际视频压缩标准H.264和正在推广的H.265中,视频压缩技术的重点方向是进一步去冗余,即利用编程算法将视频数据中的关键信息更加精准识别并更快传输。

但去冗余的方法本身还是以牺牲图像质量为代价。如果不问质量,一味压缩,虽然压缩比很高,但压缩后严重失真,显然达不到要求;反之,如只讲质量,压缩比太小,也不符合要求。因此,在研究中的国际视频压缩标准H.266走向了人工智能的方向,结合深度学习,探索在去冗余的基础上还原并提升视频画质。

熊红凯教授带领的项目团队未来也计划朝这个方向前行,目标是只需要极低的bit就可以生成视频影像。

据透露,新的研究将从源头理解信号,根据学习网络(数据库)中的信息,结合深度学习,通过图像生成的方式补偿图像画质。未来我们看到的大部分影像,也许就不是镜头拍摄采集到的,而是来自系统通过编码生成,真实和虚拟的界限将更加模糊。

本文由上海市“科技创新行动计划”科普项目(19DZ2332500)资助。