MPEG-4的主要技术概览
定义: 前言
MPEG-4编码标准是目前最新的国际编码标准规范?熏本文就其主要的内容作了简单的概述?熏并在此基础上,着重介绍了具有特色的音频对象的编码和视频对象的编码。
1 多媒体传输集成框架
多媒体传输集成框架(DMIF)主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题,通过传输多路合成比特信息,建立客户端和服务器端的握手和传输。与过去不同的是,由于MPEG-4码流中,包括许多的AV对象,一般而言,这些AV对象都有各自的缓冲器,而不仅仅是视频缓冲器和音频缓冲器。
2 语法描述
MPEG-4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对C++的扩展,不仅易于表达其AV对象特性,而且也易于软件仿真实现与模型验证。与MPEG-4相比,MPEG-1和MPEG-2则采用一种类C语言的描述,MPEG-4描述语言反映了面向对象技术来描述对象。
3 音频对象的编码
视频音频的压缩编码自然仍是MPEG-4的核心所在。不过,与以前的MPEG-1、MPEG-2不同的是:MPEG-4不仅支持自然的声音(如语音和音乐),而且支持基于描述语言的合成声音,支持音频的对象特征。即一个场景中,同时有人声和背景音乐,它们也许是独立编码的音频对象。
3.1 自然声音编码
MPEG-4研究比较了现有的各种音频编码算法,支持2~64K的自然声音编码。如8 kHz采样频率的2~4 kbit/s的语音编码,以及8或16 kHz采样频率4~16 kbit/s的音频编码,一般采用参数编码;6~24 kbit/s的语音编码,一般采用码激励线性预测(CELP)编码技术;16 kbit/s以上码率的编码,则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已有的音频编码标准,如G.723、G.728以及MPEG-1和MPEG-2等。图1是MPGE4的可伸缩自然音频编码器示意图,包括了3种编码技术。
3.2 合成声音
在合成声音编码当中,MPEG-4引入了2个极有吸引力的编码技术:文本到语音编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上,合成声音编码技术即是一种基于知识库的参数编码。特别值得一提的是MPEG-4的乐谱驱动合成技术,在该技术中,解码器是由一种特殊的合成语言——结构化的音频管弦乐团语言(SAOL)驱动的。其中的“管弦乐团”是由不同的“乐器”组成的。当解码器不具有某一“乐器”时,MPEG-4还允许解码器从编码器下载该“乐器”到解码器,以便正确恢复合成声音。可见,MPEG-4不是提供一组角MIDI音乐标准中的“乐器”,而是提供了一个可随时扩充的“管弦乐团”,因此,其可“演奏”乐谱自然更加丰富多彩。
4 视觉对象的编码
同样,MPEG-4也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D动画,人的面部表情动画等,这些合成图像单独编码,不仅可有效压缩,而且还便于操作。
对自然视觉对象的编码,仍是MPEG-4的重点。相对于静止图像,MPEG-4采用零树小波算法(Zerotree WAVelet algorithm)以提供高压缩比,同时还提供多达11级的空间分辨率和质量的可伸缩性。
对于运动视频对象的编码,MPEG-4采用了如图2所示的编码框图,以支持图像的编码。可见,MPEG-4为了支持基于对象的编码,引入了形状编码模块。为了支持高效压缩,MPEG-4仍然采用了MPEG-1、MPEG-2中的变换、预测混合编码框架。
对于一般的任意形状的视频对象,MPEG-4编码后的码流结构见图3。 对于实时的极低比特率的应用,如可视电话,MPEG-4视频编码采用极低比特率视频(VLBV)核进行编码,类似于ITU的H.263直接对矩形视频编码,而不采用形状编码模块。编码后的码流结构见图4。 可见,MPEG-4采取了向前兼容H.263,同时,也提供了一些高层特性,如基于内容的编码。其扩充的方式见图5。
MPEG-4支持有误码信道传输下的鲁棒性,提供了更好的同步和误码恢复机制。
5 场景描述
场景描述主要用于描述以上单个的AV对象如何在一个具体AV场景坐标下的组织与同步等问题。同时还有AV对象和AV场景的知识产权保护等问题。
6 MPEG-4展望
MPEG-4的应用将是广泛而深远的。这一新的标准将至少可以应用于以下场合:
a) 实时多媒体监控;
b) 极低比特率下的移动多媒体通信;
c) 基于内容存储和检索多媒体系统;
d) Internet/Intranet上的视频流与可视游戏;
e) 基于面部表情模拟的虚拟会议;
f) DVD上的交互多媒体应用;
g) 基于计算机网络的可视化合作实验室场景应用;
h) 演播室和电视的节目制作。
|