手机语音识别应用中DSP的选择策略-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 综合技术 » 通讯及无线技术 » 手机语音识别应用中DSP的选择策略

共1条 1/1 1 跳转至页

手机语音识别应用中DSP的选择策略

lj_0522

助工

2008-07-17 00:32:19 打赏

只看楼主 1楼

随着DSP技术的进步，计算能力更强、功耗更低和体积更小的DSP已经出现，使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前，基本ASR应用可以分成三大类：1. 语音-文本转换(语音输入)；2. 讲者识别；3. 语音命令控制(语音控制)。

　　这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据，从而满足信用卡定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口，它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。

　　语音识别的两种方法

　　3G手机的ASR应用设计可分为两类，即以终端为中心和以客户/服务器为中心的应用。如图1所示为以终端为中心的设计方法，3G手机(终端)执行整个语音识别过程并送出识别结果。在图2所示的客户/服务器方法中，终端只是执行预处理特征提取，然后通过一个误码受保护的数据信道将这些参数发送给中心服务器，中心服务器最终完成语音识别。如果采用以客户/服务器为中心的设计方法，3G手机应使用数据信道而非移动信道来将语音发送给服务器进行识别，因为移动信道所用的低速率语音编码会严重影响语音识别的性能。

　　各种ASR系统的差异主要体现在词汇量上。一个简单的网络设备可能只需要16字的词库就能实现所要求的语音识别功能，而3G移动手机则需要更大的专业词库。这些词汇可以跟讲者相关(训练语音识别设备使之熟悉用户的声音特征)或跟讲者无关(语音识别设备可以识别任何人的声音)，DSP的计算负荷就随着词汇量和训练数据的增加而增大。

　　例如，根据隐性马尔可夫模型(HMM)可以分析一个典型的跟讲者无关的100条命令识别的应用实例。假设HMM模型从左到右没有跳跃地顺序摆放，共有6个状态、5个具有对角协方差的混合高斯分布，包含39个特征(13唛-频率对数系数或MFCC，及其一阶和二阶差分)，具有16位精度，那么，HMM声学模型的大小就是100×5×5×(39+2)×2=240kB。

　　为了实现输入语音样本差分、窗口截获、MFCC抽取、概率计算和维特比搜索等运算的实时性，典型情况下需要消耗DSP的1千万个乘法-累加周期(MMAC)。对于连续语音识别来说，上千个三音素模型和多种语法模型需要更多的存储空间，也需要更快的DSP处理速度。

　　因此，移动电话中ASR系统的成败很大程度上取决于DSP的功能和设计。第三代系统本身就需要比第二代系统更强性能的DSP，而增加ASR功能就对DSP提出了更高的要求。从结构角度看，对DSP性能的要求是处理速度快、功耗低和代码密度高。

　　采用高速DSP是关键

　　由于系统要实时对语音进行处理和取样，因此语音识别系统需要具有巨大的计算能力。下面的数字和计算假设采用的是围绕终端的设计方法。如果将DSP计算资源的20%分配给一个10MMAC的语音识别系统使用，那么就需要一个具有50MMAC的DSP才能满足这一功能需要，并可提供足够的空间执行3G手机所需的其它DSP任务，如处理软猫。如果采用较慢的DSP，如25MMAC的DSP，那么词汇表中的命令数量就要减半，或减少HMM参数，这样会降低整个系统性能。

　　DSP的速度决定了语音识别系统的复杂性和性能。举例来说，如果一个基本的跟讲者无关的连续语音识别系统需要100MMAC，DSP计算资源的50%用于满足3G手机的其它DSP任务的需求，那么DSP的处理速度就需要达到200MMAC。

　　成本、性能和效率的折衷

　　DSP的速度越快，就越便于利用现代的HMM技术，如信道匹配和声域匹配技术，因此，理论上讲，DSP速度越快，ASR系统的性能就越好。然而，并行处理方法在提高ASR系统吞吐量中也扮演着重要角色。例如，一个具有4 ALU(算术逻辑单元)的200MHz DSP比只有1 ALU但运行于400MHz的DSP具有更高的吞吐量。根据具体应用的不同，2到3个单ALU DSP提供的性能与一个具有4 ALU的DSP相仿。相对一个具有4 ALU的DSP处理器方案来说，多个单ALU的DSP会提高手机的成本，因此对于适销对路产品要充分权衡成本与性能之间的折衷。

　　总之，当比较一个600MHz的单ALU DSP和一个300MHz但有4 ALU的DSP时，设计工程师始终应把握的最终目标是高效的运算吞吐量，具有多个ALU的DSP也许是最好的解决方案。

　　性能与功耗

　　顶级性能的DSP采用并行结构来获得最佳的性能空间。有个著名的平衡型并行结构StarCore SC140就采用了指令级并行结构，它具有4个并行ALU以及一个称为变长执行集(VLES)的改进型甚长指令字模型。VLES的优点在于它支持在内存中完成高效的指令调度、执行和打包。它能通过一个指令队列对前端提供反馈，并通过调度器控制后端，因此除非需要执行计算，VLES处理一般不消耗功率。

关键词：手机语音识别应用选择策略性能需要一

共1条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！
高校联络员开始招募啦！有惊喜！！
【工程师专属福利】每天30秒，积分轻松拿！EEPW宠粉打卡计划启动！
送您一块开发板，2025年“我要开发板活动”又开始了！

我要赚赏金打赏帖
【分享开发笔记，赚取电动螺丝刀】在NUCLEO-F412ZG部署MicroPython被打赏￥25元
【调试】使用OZONE调试Cortex-M hardfault被打赏￥40元
【分享开发笔记，赚取电动螺丝刀】沁恒CH592F开发中遇到的ADC采样不准及解决方案被打赏￥27元
【分享开发笔记，赚取电动螺丝刀】再次移植U8g2到MAX78000开发板，使用硬件i2c被打赏￥24元
【我踩过的那些坑】01:使用STM32cubeMX配置H755的双核启动的“坑”被打赏￥2元
【我踩过的那些坑】分享一下CW32L011开发板烧录故障被打赏￥2元
【分享开发笔记，赚取电动螺丝刀】移植U8g2到MAX78000开发板，使用模拟i2c被打赏￥27元
星允派(stm32f103)I2C24C02被打赏￥22元
【STM32F103ZET6】06:使用STM32cubeMX配置DAC的输出被打赏￥28元
AS6221EvalKit：精度最高的数字温度传感器开发使用被打赏￥26元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

手机语音识别应用中DSP的选择策略

回复