这些小活动你都参加了吗?快来围观一下吧!>>
电子产品世界 » 论坛首页 » 综合技术 » 通讯及无线技术 » IP电话语音质量的评价与分析

共1条 1/1 1 跳转至

IP电话语音质量的评价与分析

菜鸟
2002-12-31 22:12:32     打赏
□电信传输所 袁琦 一、 引言 IP电话是近几年内发展起来的一种新的IP网络业务,它是在基于IP协议的包(分组)传输网络上所进行的电话通信业务。IP电话作为信息技术进步带来的一项新型电话业务,已在全世界范围内得到广泛使用,并对传统电话业务形成越来越大的威胁。 目前IP电话的语音质量已成为IP电话业务进一步发展的主要障碍,也是IP电话技术需要解决的重大难题之一。本文主要对IP电话的语音质量进行评价和分析,并简单介绍IP电话语音质量的测试方法。   二、IP电话语音质量的评价 目前对IP电话业务语音质量评分的评价主要有三种模型:MOS模型、PSQM模型和E模型。 1. MOS模型 ITU-T建议P.830描述了一种对语音的主观评定方法-MOS(Mean Opinion Score)方法。根据P.830建议的要求,特定的发话者与听话者在特定的环境下,通过收集测试者在各种不同情景下的主观感受,根据P.830的分析法则得出该语音的品质。P.830对测试的要求非常严格,所有的操作都要严格地服从操作流程,对录音系统、语音采样、语音输入级别、听者级别、不同发话者(8男、8女、8儿童)、多发话者(多人同时讲话)、差错处理、不同语音编码方式的兼容性、过失、环境噪音、音乐等等,都作出了详细严格的规定。测试者的主观感受结果也被分为很多不同的范畴,如听者感受的网络质量结果、质量降级结果、比较结果等。 2. PSQM模型 MOS方法是一种模糊的评估方法,其测试结果很难对VoIP系统的改进和不同VoIP设备之间性能的比较作出有实际意义的判别。因此,有人提出借用ITU-T 在P.861 中建议的 PSQM (Perceptual Speech Quality Measurement)方法,用来作为客观质量度量的评估。 PSQM的客观性是指模仿现实生活中主观声音的感知。PSQM仿真实验中主观判断话音编码器的质量,通过把编码后的信号和源信号进行比较,PSQM仍以MOS的5个级别作为评估结果。PSQM方法并未摆脱原始的人类主观评估,只是作了进一步的说明。 图1为ITU-T P.861定义的PSQM算法的评价模型。首先选取符合条件的基准信号源,可以是真实的声音,也可以是规定的人工语音。把基准信号源和经过网络的干扰后信号输入到知觉模型,这个知觉模型实际上是对信号进行时间-频率映射,以及频率和强度偏差处理。从知觉模型输出得到的信号内部表现通过差别模型进行处理,为了获得主观和客观之间的较高关联性,再输入到认识模型,最后得到质量评分。从这个评价模型可以看出使用者对语音清晰度的评价主要取决于使用者的认识模型,而使用者的认识模型又是受其知觉模型影响。 3. E模型 E模型最早是由欧洲的ETSI标准组织提出,后来又由ITU-T标准化形成G.107建议。E模型的思想是将话音信号传输过程中若干因素对话质的负面影响综合为参数R,用以评估该话音呼叫的主观质量。R的值越大,表明话音质量越好。E模型的R参数由下式确定: R = Ro-Is-Id-Ie+A 其中参数Ro表示噪音带来的影响,如背景噪音和电流噪音的干扰。参数Is表示与语音信号同时产生的质量影响因素,如由量化、连接噪声和侧音过强带来的干扰。参数Id表示由于时延造成的质量影响,包括由于通话回声和交互性丧失带来的干扰。Ie包括由于使用特殊设备引入的质量损失,如低比特率编解码器的影响和分组丢失的影响。G.729A的Ie为10,G.723.1在5.3kbit/s和6.3kbit/s码流速率下的Ie分别为19和15。参数A为预期值,用以补偿由于用户采用某些带来便捷接入的设备而导致的话音质量的影响。对于传统电话,A取值为0;而GSM移动电话的A值为10。 根据E模型确定可接受话音质量对应的R值。编解码器类型、通信模式和传输协议的不同,会使上式中的各个分量有不同的取值,从而得到不同的R值。 三、 影响IP电话语音质量的关键因素分析 影响VoIP业务语音质量评分的主要因素有: - 同时通过网关的数据流量 - 采样和纠错技术 - 语音的延时 - IP包在网络上的丢失 - 语音数据包抖动 - 传统问题:话音输入输出设备质量、电平、噪声、回损和ECHO PATH 延迟(产生于GSM/PSTN段); 1、 网关的语音处理技术 (1)语音的编码与压缩 VoIP业务的关键技术之一就是语音的编码及压缩技术,采取的编解码算法和压缩技术直接影响到VoIP业务的语音质量。语音的编码及压缩过程在网关中完成,这个过程需要先进行数字编码,转换为PCM码,然后经过专门的DSP芯片进行数据压缩,最后再形成IP包数据的形式,以适合IP网络上的传输带宽。 根据语音信号的不同特征,语音编码通常可以分为两大类:波形基编码和参数基编码。话音编码按比特速率的划分为:高速编码,中速编码和低速编码。 波形基编码是通过抽样和量化过程,并利用统计特性和听觉特性对语音信息进行压缩编码,最早也是最著名的波形基编码就是PCM,波形基编码包含三个过程:抽样、量化和编码;波形基编码不适应于低速话音编码,一般属于中高速编码。 参数基编码是将语音信号用某种模型表示,仅仅对表示语音特征的参数进行编码。参数基编码一般属于中低速编码。 ITU-T在G系列建议中对语音编码技术进行了标准化,已经公布了一系列语音编码协议,采用波形基编码的方式主要有G.711、G.721、G.722、G.723、G.726、G.727,采用参数基编码方式的主要有G.728、G.729、G.729A、G.723.1。这些协议采用不同的算法,具有不同的速率。较高速率的编码协议对话音质量较易保证,但占用网络资源较大;较低速率的编码协议对话音质量较难保证,但占用网络资源小。这些语音压缩方式的比较如表3所示。 编码压缩方法由ITU-T统一制定并标准化,它的压缩能力由DSP的处理能力决定,即复杂度。复杂度决定了编解码器硬件的成本和功耗,也影响到编解码器的实时性。复杂度的衡量指标是定点DSP实现编解码所需的处理器能力,以百万指令/秒(MIPS)为单位。 编码压缩仅负责对实际传输的IP包数据进行压缩,它不负责对IP头压缩。一般,IP/UDP头(包括地址信息和控制信息)要耗去7kbit/s左右的带宽。 在实际选择压缩算法时,要综合考虑各种因素。例如,高比特率可以保证良好的话音品质,但要占用大量的存储空间,耗费更多的系统资源;而过低的比特率又会影响话音的品质和增加延迟。所以,在较低比特率的前提下,保持较好的话音质量,是选择压缩算法的原则。 从互通性角度考虑,IP电话网关对其它编码协议亦应全部支持或部分支持。特别是对于G.729/ G.729A,由于其编码速率亦较低。而且其编码时延较G.723.1小,因此建议IP电话网中给予支持。 为保证一定的通话质量,网关必须设有输入缓冲,以尽可能地消除时延抖动对通话质量的影响。另外,网关应该具有语音编码的动态转换功能,即网关设备能够自动地在较高速率的语音编码和较低速率的语音编码之间的转换。当网络拥塞时可以由高码速转换到低码速,当网络条件较好时,可以由低码速转换到高码速以提高语音质量。语音编码的动态转换是网关设备在IP电话QoS管理方面的一个重要功能。 (2)DTMF检测 DTMF信号传输在语音网络中极为重要,因为网络不仅传输被叫方的拨叫号码,而且用来激活基本电路特性。信号质量的衰减会影响到DTMF信号的识别。DTMF信号的失真又会影响话音服务的质量。 DTMF信号由电话键盘使用相同幅度的两个不同的高频和低频来产生。网关需转换电话中常用的DTMF信号,应能检测DTMF信号,并将其转换为H.245消息中的"用户输入指示"信息单元予以传送,可取值0~9、*和#,反之,应能生成DTMF信号。 网关中的低比特率编解码器适用于语音信号而不是正弦信号,它们会改变信号的频率和幅度,所以难以传输DTMF信号,并很难高保真地恢复它们。 (3) 静音抑制 静音抑制,又称语音活动侦测(VAD)。静音抑制的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。 用户打电话时,并不是总在占用通话信道。根据传统电话业务的统计,一方用户实际占用通话信道的时间不会超过整个通话时间的40%。这主要包括以下几个方面的原因:一是正在听对方说话;二是由于思考,稍事休息等原因引起的一段话之间的停顿;三是说话中间的停顿,如犹豫,呼吸,口吃等。第一种情况下停顿间隙长而出现频率低;第三种情况停顿间隙短而出现频率高;第二种情况界于一、三种情况之间。语音源的这种特性叫做开关特性,有时也叫话音/静默特性。 在用户没有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。当检测到突发的活动声音时才生成语音信号,并加以传输。运用这种技术能够获得大于50%的带宽。 在进行静音检测时有两个问题需要注意:一是背景噪声问题,即如何在较大的背景噪声中检测静音;二是前后沿剪切问题。所谓前后沿剪切就是还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延,有时语音波形的开始和结束部分会作为静音被丢掉,还原的语音会出现变化,因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。 在实际使用中,如果出现长时间的静默,会使用户感到很不自然。因此实际上接收端常常会在静音期间发送一些分组,从而生成使用户感觉舒服一些的背景噪声,即所谓的舒适噪声。 (4) 回声处理 回声是信号通过网络时的反射。本地扬声器输出的模拟语音信号可能又被话筒接收,当信号被传回到源端时,就会产生不必要的回声。在传统固话网中,从4线交换到2线本地环路时的阻抗会导致回声,或者是由麦克风和扬声器或耳机之间的耦合效果不好也会导致回声。在IP网中,呼叫必须经过多个路由器和网关,其相当长的延迟又会造成回声问题的进一步恶化。典型的延迟是16ms-20ms的回声叫做侧音,它有利于谈话者听到自己的声音。但是延迟超过了25ms,听到的声音就会被扭曲,甚至中断谈话。回声可以用回声消除器加以控制。在VoIP网络中,把回声消除器放在了低比特编码器中,并且运行于每个DSP之上。回声消除器的设计受到等待接收反射回来的话音的整个时间大小的限制。 2、 承载的IP网络 承载的IP网络基于TCP/IP协议进行数据包的分组交换,是面向无连接网络,其传输特性无法得到保证。每个分组包含源和目的IP地址,分组包既没有标记为属于某一个特定的流或者一个连接,也没有以任何方式进行编号。每个IPv4节点尽其最大的努力,对每个分组独立进行路由转发,并在网络中独立传递,达到同一目的地分组的路由不一定相同,到达时间也是不固定且非实时的,最后在目的节点缓冲区重新组成数据。因此数据包传送所需时延无法保证,途中的丢包更无法控制,并造成IP包传输的时延抖动。 承载的IP网络的上述机制能够较好地支持非实时的数据业务,但对实时业务支持不够。尽管IP协议中有业务类别的区别,用户依此表示为网络的时延,带宽以及安全性等特征参数,从而来获取希望的QoS,但在实际的IP网络中,并没有真正完全参照这些参数(业务类别的划分及对应的QoS参数)来使用。因此传统的IP网传送实时的VoIP业务能力较差。 在IP电话业务中,网络和网关带来的时延都可能会严重地影响语音质量,这就要求运营商必须提供高质量的IP网络。这可以通过两种途径来解决,一是增加网络带宽,二是通过在网络中实现QoS服务来实现带宽的合理利用,从而满足IP电话业务对实时性的要求。 足够的带宽是确保语音数据包无延时地到达目的地所必须的。如果网络正面临阻塞问题时,就需要更大的网络带宽来解决这个问题,仅仅采用优先机制只能部分消除分组包的丢失问题。假如不希望丢弃任何数据包的话,就必须增加带宽了。 实现业务传输优先级保证的关键在于引入一种服务质量机制(QoS),允许网络将不同类型的业务置于特定的QoS队列中,使得语音业务的传输优先级高于数据业务,从而降低队列延时,实时性得到保障。 四、 IP电话语音质量的测试 IP电话业务的主观评定MOS评分由测试人员通过通话根据评分标准主观评定的,可简单地由20-60个非专职测试者对所听的话音进行综合打分,然后进行统计分析。 IP电话业务的客观评定PSQM评分指标可利用测试仪表进行测试,目前国内外众多的测试仪表厂商已经开发出许多用于PSQM评分值的测试仪表。Agilent公司的Telegra VQT语音质量测试仪,能够测试端到端语音时延、清晰度、静音抑制和DTMF音调分析等参数,能够提供专业的端到端的语音质量(PSQM)测试,并对话音质量进行客观分析。美国Ameritec的解决方案为利用各种型号的大话务量呼叫器发起呼叫,并在其上配置"Golden Voice"复合音调发生器,利用呼叫产生的标准测试音信号,在被叫端或呼叫经过的网络进行话音质量的分析和丢包、抖动、沿切割、延时等测试。Spirent公司的Abcus测试仪也能完成PSQM评分指标的测试。国内的中创信测公司研制开发出了IP电话测试仪,中创的IP电话测试仪采用捕捉协议包的方式实时对H.323呼叫过程跟踪分析,可进行IP语音包的提取及语音质量分析。 关于IP电话业务的R值评分,目前国内外还没有这方面的测试仪表,相关研究机构和测试仪表厂家正在积极地进行E模型的研究与开发。 摘自《通信世界》



关键词: 电话     语音     质量     评价     分析     传输     网络     业务         

共1条 1/1 1 跳转至

回复

匿名不能发帖!请先 [ 登陆 注册 ]