IP电话语音还原技术的研究与实现

菜鸟

2017-01-11 15:38:41 打赏

IP电话语音还原技术的研究与实现

随着语音压缩技术的成熟，网络带宽的不断扩展，以及市场的需求，IP电话技术已被从实验室中推向了成熟的商用领域。然而，要想把此种技术推向商用，就不得不重视安全问题。IP电话的监控和管理是VoIP(Voice over IP)安全领域中非常重要的部分，其中的一项关键技术就是IP电话语音还原技术。IP电话语音还原技术是对IP电话语音捕获系统捕捉的语音数据包进行处理，最终还原双方语音通话过程的技术。

VoIP系统音频数据传输过程如图1所示。在通过呼叫控制信令(如H.323、SIP)建立起两个终端之间的媒体流通道后，便开始了两个终端之间的语音传递过程。整个过程始于对模拟音频的模数转换，经过抽样、量化、编码生成的原始PCM 数据再经过音频编码器的压缩编码生成待传送的音频数据，通过RTP、UDP、IP协议的层层封装生成包含有音频抽样信息的IP报文发送到接收终端。接收端接收到含有音频数据的IP报文取出RTP净荷中的音频数据，送入相应的解码器解码，然后通过音频设备进行数模转换，回放出原始的声音。

我们所要研究的内容就是如何通过处理和解析RTP协议数据包，按照正确的顺序取出RTP净荷，如何对RTP净荷进行解码生成.wav文件，以及如何把两路.wav文件合成为一个包含两路会话内容的.wav文件。

1 RTP数据的处理

RTP数据指的是由IP电话语音捕获器捕捉并记录下来的语音会话当中传送的RTP数据报文的集合，如文件、数据库记录等。以一次通话过程为例，IP电话语音捕捉器将分别生成两个独立的记录有双方通话内容的RTP数据集，记为forward—RTP和reverseRTP，这就是一次处理过程中待处理的数据源。

RTP数据的处理总体上分为两个部分：排序处理和补包处理。

1.1 排序处理

由于网络传输存在一定的不可靠性，在数据传输的过程中有可能会导致数据包到达顺序的局部混乱，通过排序将很好地解决这个问题。

从RTP协议来看，可以用于进行排序的域有两个，即序列号和时间戳。在没有出现乱序的情况下，序列号和时间戳都应该是递增的，而序列号的递增量应该为1。但是序列号是一个16bit的域，在长时间的通话过程中有可能存在溢出的情况，这将导致排序结果不正确。通过实验观察，在实际通话过程中这种情况确实存在。如图2所示为采用Ethereal网络数据分析软件抓到的RTP数据包，其中就存在序列号溢出。因此，我们采用时间戳域作为索引对数据包进行排序。待排序的数据特征是数据基本有序，通过综合考虑各种排序算法的时间复杂度和程序实现的复杂度，我们采用直接插入排序法，比较顺序为从后向前。

1.2 补包处理

网络传输的不可靠性还会导致数据包的丢失，可以用填补丢失数据包的方法解决。然而，前一种情况属于非正常缺失，出现的概率很小。VolP系统实现中，常常在检测出通话静音期后，采用停发语音包的方法以减少语音数据传输所占用的带宽。补包处理主要是为了解决这种更为普遍的正常缺失情况。如果不进行补包处理，通话过程中静音期的停顿在恢复出语音后将无法体现，势必严重影响语音还原的效果，还会导致两路音频进行合路后声音的严重不同步。

补包算法是基于RTP协议中的标记域和时间戳域实现的。根据RFC 1889对于RTP协议的描述可以得出以下结论。标记域可以用来判断是否存在静音期，如果标记域置为1，则说明此分组与前一分组之间存在静音期。时间戳记录净荷中的第一个抽样产生的时间。典型的语音编码模式的频率为8000Hz，从一个分组到另一个分组的时间戳值的增量取决于分组中抽样的数量。例如，如果一个分组包括10个语音抽样和一个值为1的时间戳，那么下一个分组的时间戳则为11。考虑到抽样以8000Hz的速率发生(每0.125ms)，那么时间戳中10的差别就代表了时间上1.25ms的差别。如果在静音期，没有发送任何分组，那么下一个RTP分组可能包含一个明显比前一个RTP分组大得多的时间戳。

补包算法的具体描述如下：

因为不同的编码方式，有不同的传输速率，所以在无静音期情况下，相邻的两个RTP数据包的时间戳的差值和第一个包的净荷的大小之间的关系因编码方式的不同而有所不同。

以△T表示相邻两个包的时间戳的差值：V表示对应于某种编码方式的传输速率(单位kbit/s);Ⅳ表示相邻的两个RIP包的第一个RTP包的净荷的大小(单位Byte);l厂表示这种编码方式对应的抽样频率(单位Hz);C表示分组持续的时间(单位S)那么如果在没有静音期的情况下，△T、V、N、f和C应该满足如下的关系：

除此以外，还需要进行一种特殊的补包处理，即补充通话头，以使两路通话同步。要实现两路会话的同步合成，必须要找到一个正确的同步点。通常情况下，两路通话各自的第一个RTP分组到达IP电话捕捉器的时间是不一样的。例如回铃音期间，一方已经向另一方发送了回铃音的RTP分组，而另一方还没有开始讲话，就相当于处于静音期。因此，可以根据两路通话各自的第一个RTP分组到达时间差值和公式(1)计算出需要在缺少静音数据的话路头补充多大的静音RTP分组。

2 音频解码和处理

音频解码过程采用于RTP头中负载类型相一致的解码器对RTP净荷数据进行解码，生成l6位的原始PCM 数据，然后写入.way文件中，最终生成能够采用音频播放器进行播放的.wav音频文件。

通过前面的处理过程，一次通话的两路会话都记录在各自的.way文件中，而且保证其内容是同步对齐的。合路处理采用把两路.wav文件中的数据部分按抽样量化值按比例叠加的方法。下面，通过证明两个模拟波形叠加后进行模数转换(抽样、量化和编码)生成的数字音频与分别模数转换后再叠加生成的数字音频两者引入的误差相当，论证其方法的合理性。

3 解决方案

基于前面的理论分析，我们提出一套IP电话语音还原的方案，并采用C++编程实现了全部的功能及算法。方案流程图如图3所示。

默认条件下，MSFTESQL服务只加载被微软认证的筛选器，使用参数“0”即可将认证取消。

②加载筛选器

EXEC sp— fulhext—service’load—OS— resources’,1

此命令是用来加载第三方的筛选器。如果将参数“1”改为“0”，则仅加载SQL Server实例的筛选器。

以上两个步骤缺一不可，但执行顺序可以不一样。除了自行开发第三方筛选器外，还可以从因特网上去下载其它第三方的筛选器，如PDF、CAB、ZIP等格式文件的筛选器。PDF筛选器可以到WWW.adobe.com网站上下载，在WWW.citeknet.com

网站上提供有其它文件格式的筛选器下载。

来自德西特科技http://www.decitone.com/

machinnneee

专家

2017-01-16 07:00:04 打赏

2楼

这个感觉很厉害，谢谢楼主分享、

共2条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
「破界·共生」——2026蓝牙技术变革与工程实战思辨会
【“龙虾”创意工坊征集令——用XClaw玩出最出乎意料的智能终端】有奖活动~
【福利征集】工程师工作台缺失好物！回帖给我，帮你实现！
2026年“我要开发板活动”第三季，开始了！
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】

我要赚赏金打赏帖
片外存储Flash使用方法(Arduino IDE环境)被打赏￥22元
三分钟快速上手ESP-NOW(ArduinoIDE环境)被打赏￥23元
【S32K3XX】LPSPI参数配置说明被打赏￥21元
在WT9932C61-TINY上实现超声波测距被打赏￥22元
基于WT9932C61-TINY的环境构建及OLED屏驱动测试被打赏￥20元
【S32K3XX】Core-to-Core 中断使用被打赏￥21元
「AI编程记录--含源码」用一晚上的时间写一个esp32的示波器被打赏￥19元
STM32C0116DK开发探索记（3）被打赏￥30元
STM32C0116DK开发探索记（2）被打赏￥24元
STM32C0116DK开发探索记（1）被打赏￥29元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

IP电话语音还原技术的研究与实现

回复

　　IP电话语音还原技术的研究与实现