小杜,在呢,播放音乐~
不知不觉,与智能助手的对话,成为了日常沟通的一部分。无论是在家里亦或是车里,总有一个助手与我作伴。这让我想起了一个名字“铁蛋”。
恰巧近期重温了《小灵通漫游未来》,整个人不自觉就融化在小时候看这连环画时那种惊奇的回忆中,再一次萌生了去书里找找那时候,是否有关于语音识别的畅想。
现实生活中的“铁蛋”形态各异,有放在书桌上的台灯,有放在客厅的音响,有业务大厅伫立的柜机,有汽车大屏里的人机,它们有一个共通点,就是拥有强大的语音识别和交互能力,听得懂人话,识别成功率高,反应速度快,这些重要因素将成为你会不会和它们对话的前提。
今天为大家带来的就是关于语音识别测试的方案,这套方案针对智能产品和车载交互系统,提供一套语音识别的测评方法,从而为语音识别系统的质量评估提供参考依据。
尽管现在的语音对话还不够完美,总有不同程度的错误,所以我们才会不断去测试,模拟,优化,调整,
即便「完美」是遥不可及的彼岸,对我们而言,也是心中仍时常凝望的那盏绿灯。
惯例,在看一个测试项目之前,先去看标准——
语音识别测试的参考标准主要有2个,国标GB/T 21023和电信终端产业协会的标准 (起草单位: 中国信息通信研究院)。
初次阅读时则被这个标准的时间所触动,那是2007年,布局很早啊~
节省时间,我替粉丝们阅读总结,里面提到的测试项目包括下列:
• 唤醒率 / 识别成功率
• 误唤醒率
• 响应时间
• 测试环境
而且针对智能产品和车载交互系统,不同的测试环境都有不同的具体要求
众所周知,这些年智能设备已经进入千家万户,已经摆脱了传统物理按键。记得测测有一次去闺蜜家,她家的马桶都是需要语音交互才能发挥功能的。这真的有点让我很“社死”。哎,这令人窒息的设计感。
言归正传,来看看智能设备语音识别测试的环境:
• 唤醒源和被测品距离: 1/3/5m
• 噪声源距离和多个角度: 1.5m
• SNR >=15dB
举一反三的同学在这里就会举起右手,准备提问了。
像智能音箱这种,标准对测试环境有要求,被测品和播放唤醒词的声音源之间的距离, 和背景噪声要达到指定的声压等等,非常明确。
但问题来了,我们如何确保环境能满足标准里的声压要求呢?
很简单,那我们就对环境做校准啊~~~
测试前我们需要对环境进行校准,大概流程如下:
1)在被测品位置放置标准麦克风
2)调整播放唤醒词的声音源声压,直到满足标准要求
3)调整背景噪声的声压,直到满足标准要求
4)最后保存校准数据即可
当被测品是车载交互系统时,标准对测试环境也有明确要求,不过思路和智能产品一样。比如被测品和播放唤醒词的声音源之间的距离, 和背景噪声要达到指定的声压。
车载交互系统语音识别测试的环境:
• 人工嘴声压: -4.7dBPa
• 背景噪声: 喇叭 x 4 + 低音喇叭 x 1
噪声声压具体声压如下——
同样,为了确保环境能满足标准里的声压要求,我们在车载交互系统测试前也需要对环境做校准。
大概流程如下:
1)在被测品位置放置标准麦克风
2)调整播放唤醒词的声音源声压,直到满足标准要求
3)调整背景噪声的声压,直到满足标准要求
4)最后保存校准数据
作为ETS软件部门,开发了一套又一套的好用、实用软件。这次就让我们透过软件感受测试。此番带来,想必会为语音识别测试体系增添新的主角。