MPEG-4的主要技术概览

菜鸟

2006-11-29 18:31:50 打赏

MPEG－4的主要技术概览

定义：
前言

　　MPEG－4编码标准是目前最新的国际编码标准规范?熏本文就其主要的内容作了简单的概述?熏并在此基础上，着重介绍了具有特色的音频对象的编码和视频对象的编码。

　　1 多媒体传输集成框架

　　多媒体传输集成框架（ＤＭＩＦ）主要解决交互网络中、广播环境下以及磁盘中多媒体应用的操作问题，通过传输多路合成比特信息，建立客户端和服务器端的握手和传输。与过去不同的是，由于MPEG－4码流中，包括许多的AV对象，一般而言，这些AV对象都有各自的缓冲器，而不仅仅是视频缓冲器和音频缓冲器。

　　2 语法描述

　　MPEG－4定义了一个句法描述语言来描述AV对象比特流表示和场景描述信息。这个句法描述语言是对Ｃ＋＋的扩展，不仅易于表达其AV对象特性，而且也易于软件仿真实现与模型验证。与MPEG－4相比，MPEG－1和MPEG－2则采用一种类Ｃ语言的描述，MPEG－4描述语言反映了面向对象技术来描述对象。

　　3 音频对象的编码

　　视频音频的压缩编码自然仍是MPEG－4的核心所在。不过，与以前的MPEG－1、MPEG－2不同的是：MPEG－4不仅支持自然的声音（如语音和音乐），而且支持基于描述语言的合成声音，支持音频的对象特征。即一个场景中，同时有人声和背景音乐，它们也许是独立编码的音频对象。

　　3．1 自然声音编码

　　MPEG－4研究比较了现有的各种音频编码算法，支持2～64Ｋ的自然声音编码。如8 ｋＨｚ采样频率的2～4 ｋｂｉｔ／ｓ的语音编码，以及8或16 ｋＨｚ采样频率4～16 ｋｂｉｔ／ｓ的音频编码，一般采用参数编码；6～24 ｋｂｉｔ／ｓ的语音编码，一般采用码激励线性预测（ＣＥＬＰ）编码技术；16 ｋｂｉｔ／ｓ以上码率的编码，则可采用时频（Ｔ／Ｆ）变换编码技术。这些技术实质上借鉴了已有的音频编码标准，如Ｇ．723、Ｇ．728以及MPEG－1和MPEG－2等。图1是ＭＰＧＥ4的可伸缩自然音频编码器示意图，包括了3种编码技术。

3．2 合成声音

　　在合成声音编码当中，MPEG－4引入了2个极有吸引力的编码技术：文本到语音编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上，合成声音编码技术即是一种基于知识库的参数编码。特别值得一提的是MPEG－4的乐谱驱动合成技术，在该技术中，解码器是由一种特殊的合成语言——结构化的音频管弦乐团语言（ＳＡＯＬ）驱动的。其中的“管弦乐团”是由不同的“乐器”组成的。当解码器不具有某一“乐器”时，MPEG－4还允许解码器从编码器下载该“乐器”到解码器，以便正确恢复合成声音。可见，MPEG－4不是提供一组角ＭＩＤＩ音乐标准中的“乐器”，而是提供了一个可随时扩充的“管弦乐团”，因此，其可“演奏”乐谱自然更加丰富多彩。

　　4 视觉对象的编码

　　同样，MPEG－4也支持对自然和合成的视觉对象编码。合成的视觉对象如2Ｄ、3Ｄ动画，人的面部表情动画等，这些合成图像单独编码，不仅可有效压缩，而且还便于操作。

　　对自然视觉对象的编码，仍是MPEG－4的重点。相对于静止图像，MPEG－4采用零树小波算法（ＺｅｒｏｔｒｅｅＷAVｅｌｅｔａｌｇｏｒｉｔｈｍ）以提供高压缩比，同时还提供多达11级的空间分辨率和质量的可伸缩性。

　　对于运动视频对象的编码，MPEG－4采用了如图2所示的编码框图，以支持图像的编码。可见，MPEG－4为了支持基于对象的编码，引入了形状编码模块。为了支持高效压缩，MPEG－4仍然采用了MPEG－1、MPEG－2中的变换、预测混合编码框架。

　　对于一般的任意形状的视频对象，MPEG－4编码后的码流结构见图3。对于实时的极低比特率的应用，如可视电话，MPEG－4视频编码采用极低比特率视频（ＶＬＢＶ）核进行编码，类似于ＩＴＵ的Ｈ．263直接对矩形视频编码，而不采用形状编码模块。编码后的码流结构见图4。可见，MPEG－4采取了向前兼容Ｈ．263，同时，也提供了一些高层特性，如基于内容的编码。其扩充的方式见图5。

　　MPEG－4支持有误码信道传输下的鲁棒性，提供了更好的同步和误码恢复机制。

　　5 场景描述

　　场景描述主要用于描述以上单个的AV对象如何在一个具体AV场景坐标下的组织与同步等问题。同时还有AV对象和AV场景的知识产权保护等问题。

　　6 MPEG－4展望

　　MPEG－4的应用将是广泛而深远的。这一新的标准将至少可以应用于以下场合：

　　ａ）实时多媒体监控；

　　ｂ）极低比特率下的移动多媒体通信；

　　ｃ）基于内容存储和检索多媒体系统；

　　ｄ）Ｉｎｔｅｒｎｅｔ／Ｉｎｔｒａｎｅｔ上的视频流与可视游戏；

　　ｅ）基于面部表情模拟的虚拟会议；

　　ｆ）ＤＶＤ上的交互多媒体应用；

　　ｇ）基于计算机网络的可视化合作实验室场景应用；

　　ｈ）演播室和电视的节目制作。

关键词： MPEG-4 主要技术概览编码音频对象

noisyroad

菜鸟

2006-12-28 17:53:00 打赏

2楼

恩，有一定扫盲作用

共2条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
「破界·共生」——2026蓝牙技术变革与工程实战思辨会
【“龙虾”创意工坊征集令——用XClaw玩出最出乎意料的智能终端】有奖活动~
2026年“我要开发板活动”第三季，开始了！
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！

我要赚赏金打赏帖
片外存储Flash使用方法(Arduino IDE环境)被打赏￥22元
三分钟快速上手ESP-NOW(ArduinoIDE环境)被打赏￥23元
【S32K3XX】LPSPI参数配置说明被打赏￥21元
在WT9932C61-TINY上实现超声波测距被打赏￥22元
基于WT9932C61-TINY的环境构建及OLED屏驱动测试被打赏￥20元
【S32K3XX】Core-to-Core 中断使用被打赏￥21元
「AI编程记录--含源码」用一晚上的时间写一个esp32的示波器被打赏￥19元
STM32C0116DK开发探索记（3）被打赏￥30元
STM32C0116DK开发探索记（2）被打赏￥24元
STM32C0116DK开发探索记（1）被打赏￥29元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

MPEG-4的主要技术概览

回复