语音识别芯片的识别率是将人类的语音中的词汇内容转换为计算机可读的输入准确度的多少。识别率的全称应该是,XX数据集上的识别率,而不是说我们拿出一些识别率的数字来说话。
识别率=100%-错误率
错误=替代错误+插入错误+删除错误
字错误率=错误的字数/标准答案的字数
识别率一般等于100%-字错误率
影响语音识别芯片识别率的两个因素:
严重影响语音识别芯片识别率的第一个因素是环境和设备。如录音设备是什么?距离有多远?环境是安静的还是嘈杂的?大家在看演示的时候,我是跟大家说“噓…,大家现在小声一点,我开始做演示了”,还是说这个环境是发生在一个嘈杂的咖啡馆里面,比如在咖啡馆里做一个采访,可能在饭馆里头,这个识别率是会有天差地别。
第二个影响因素是友好度。这其中包括口音、说话的方式、吐字不清以及语种、方言等等。另外所识别内容所处的领域也非常关键,如科技领域和医疗领域之间是有很大区别的,因为这两个领域上专业名词有非常大的差别。
解决方法:
传统意义上有两种解决方式:一种是归一化方式,另外一种是增加 Variance 的方式。以噪声为例,比如我们把噪声去掉;第二种是说既然要解决有噪声情况下的语音识别问题,我们就要刻意制造一些噪声到数据里面,让模型去“接触”所有的噪声。