七、语音特征向量的选取-----答antonine问
说到具体的算法我也不太明白,希望做过的大侠们给一指点,慢慢来吧,我现在正在寻找一种语音识别算法,这种算法不能太过复杂,否则无法在单片机上运行,经过一段时间摸索发现一种基于线性预测编码(LPC)的倒谱法(LPCC),其算法结构简单,只需循环迭代即可,正好RL78/G13内部含有16X16乘法累加单元,能够在2个时钟周期内完成,满足实时性的要求,因此,本系统拟采用此种算法来计算语音片段的特征向量对应的特征值。
关于特征值都包含哪些特征,我也是查了些相关文献,找到一个即不太复杂,又有较高识别率的一组特征值来组成语音元素的特征向量,具体的特征向量的结构详见下表:
这个就称之为语音识别表,它就是要存储在外扩存储器中的模型库,显然这些特征值都是很难计算的,在这里当然不会在单片机里进行计算,而是同过单片机将采集到的语音信息传输至PC机上,然后再交由PC机上的算法软件来统一预先将一些语音的特征向量对应的特征值先算出来,最后存储在外扩存储器上,以备实时识别时查询之用。
出于由易到难,循序渐进的思想,我拟先实现从0到9这十个孤立数字的汉语发音的特定人(本人,嘿嘿)的识别,目的是确定我的思路的准确性,若能成功识别,再继续深入研究。。。
同时,大侠们有什么好的建议。。。跟帖与大家一起分享哦。。。
八、基于RL78/G13语音识别器的基本架构
参考antonine的建议,了解了一下C5000DSP的性能,发现其是一款低功耗的16位DSP产品,并且其性能高达300MHz(600 MIP),正好与16位的RL78/G13CPU相匹配,很好的解决了主处理器和协处理器直间的数据传输的问题。在这里采用TI公司的TMS320VC5402,其广泛应用于语音识别算法的实现,正好符合本设计的要求。
一个初步的基于RL78/G13语音识别器的改进的基本架构的基本形成,具体结构如下图:
其中,语音输入前端处理模块主要完成由MIC模拟输入到RL78/G13芯片A/D转换引脚直接的模拟语音预处理电路,将MIC语音信号进行低通滤波滤除4KHz语音信号以外的噪声信号,然后通过功率放大器对MIC采集到的语音信号进行放大处理,最后通过线性反馈功率控制电路将MIC语音信号限制在RL78/G13芯片A/D转换输入引脚所允许的电压范围内。
RL78/G13--16位CPU负责对MIC采集到的信号进行A/D转换,这里的A/D采样速率暂定为8KHz,在这个采样频率下既能满足对必要的语音信息采集的要求,有利于CPU的处理,同时减轻DSP对语音数据的处理困难。
原计划由CPU来负责的语音识别的算法的实现,现在改为由16位数字信号处理专用芯片:TMS320VC5402来完成,为了能够保证算法和AD转换之间数据的高效传输,数字语音信号的预处理算法交由RL78/G13CPU中的多种特色单元来完成,这些特色单元包括:16x16位乘法器及乘法累加器、桶形移位寄存器等,这些特色为语音识别算法的实现打下了坚实的硬件基础。
模型库外扩存储器用来存储预识别的语音信息的特征向量,这些特征向量的获取是在PC机上运行相应的算法如MFCC算法、LPCC算法等从而可以得到针对每一个字符或词语所对应的特征向量,这些特征向量的分量如:倒谱系数、差分倒谱系数、能量归一化参数、差分能量系数等,然后将这些特征向量所对应的特征值依次写入模型库外扩存储器中,以备语音识别来用。
新增协处理器模块TMS320VC5402作为RL78/G13的协处理器,主要负责语音信号的端点检测、语音特征参数的提取以及特定人语音识别算法----DTW动态时间规整算法的实现。
UART识别输出模块用于将识别后得到的字符串以一定的编码形式如:ASCII码、Unicode编码等以二进制串的形式从UART串口输出至其它应用终端,例如:PC上位机、手机GSM模块等以扩展语音识别器的应用。
不足之处,还望大侠们多提建议。。。愿与大家共同学习。。。
回复
有奖活动 | |
---|---|
【有奖活动——B站互动赢积分】活动开启啦! | |
【有奖活动】分享技术经验,兑换京东卡 | |
话不多说,快进群! | |
请大声喊出:我要开发板! | |
【有奖活动】EEPW网站征稿正在进行时,欢迎踊跃投稿啦 | |
奖!发布技术笔记,技术评测贴换取您心仪的礼品 | |
打赏了!打赏了!打赏了! |