(一)、语音基础知识
1、什么是语音芯片?
语音芯片集中在广东省范围生产及研发较多,如,
广州悦欣电子, 语音芯片定义:将语音信号通过采样转化为数字,存储在IC的ROM中,再通过电路将ROM中的数字还原成语音信号。根据语音芯片的输出方式分为两大类,一种是PWM输出方式,一种是DAC输出方式,PWM输出音量不可联系可调,不能接普通功放,目前市面上大多数语音芯片是PWM输出方式。另外一种是DAC经内部EQ放大,该语音芯片声音连续可调,可数字控制调节,可外接功放。普通语音芯片放音功能实质上是一个DAC过程,而ADC过程资料是由电脑完成,其中包括对语音信号的采样、压缩、EQ等处理。录音芯片包括ADC和DAC两个过程,都是由芯片本身完成的,包括语音数据的采集、分析、压缩、存储、播放等步骤。 ADC=Analog Digital Change 模数转换DAC= Digital Analog Change 数模转换音质的优劣取决于ADC和DAC位数的多少。例如:WTV020到 WTV340,最低从10秒到340秒,WT588D等根据控制方式取决段落多少。
2、语音信号的量化表述:(分类:语音芯片和音乐芯片) (a) “语音芯片”介绍:
(1)语音信号的量化 (采样率(f)、位数(n)、波特率(T)) 采样:将语音模拟信号转化成数字信号。 采样率:每秒采样的个数(byte)。 波特率:每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second 采样位数指在二进制条件下的位数。一般在没有特别说明的情况下,声音的采样位数指8位,由00H--FFH,静音定为80H。(2)采样率 奈奎斯特抽样定理(Nyquist Law):要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。 嗓音的频带宽度为20~20K HZ左右,普通的声音大概在3KHZ以下。所以,一般CD取的音质为44.1K和16bit,如果碰到某些特别的声音,如乐器,音质也有用48K和24bit的情况,但不是主流。 一般在我们处理针对普通语音IC的时候,采样率最高达到16K就够了、说话声一般取8K(如电话音质)、6K左右。低于6K效果比较差。 在应用单片机的过程中,采样越高,定时器中断速度越快,会影响到其他信号的监控和检测,所以要综合考虑。
(3)语音压缩技术。 由于语音数据量庞大,对语音数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式: 语音分段:将语音中可以重复的部分截取出来,通过排列组合将内容完整地回放出来。 语音采样:一般我们使用的喇叭频响曲线在中频部分,较少用到高频,所以,在喇叭音质可以接受的情况下,适当降低采样频率,达到压缩效果,这种过程是不可逆的,无法恢复原貌,叫有损压缩。 数学压缩:主要是针对采样位数进行压缩,这种方式也是有损压缩。例如,我们经常采用的ADPCM压缩格式,是将语音数据从16bit压缩到4bit,压缩率是4倍。MP3是对数据流进行压缩,涉及到数据预测问题,它的波特率压缩倍率为10倍左右。 通常,以上几种压缩方式都是综合起来使用的。
(4)常用语音格式 PCM格式: Pulse Code Modulation 脉冲编码调制,它将声音模拟信号采样后得到量化后的语音数据,是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。 WAV格式:Wave Audio Files 是微软公司开发的一种声音文件格式,也叫波形声音文件,被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法,支持多种音频位数、采样频率和声道,但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据,这些数据包括采样频率和位数,单声道(mono)还是立体声(stero)等。 ADPCM格式:是利用对过去的几个抽样值来预测当前输入的样值,并使其具有自适应的预测功能与实际检测值进行比较,随时对测得的差值自动进行量化级差的处理,使之始终保持与信号同步变化。它适用于语音变化率适中的情况,而且声音回放过程简短。它的优点是对于人声的处理比较逼真,一般达到90%以上,已广泛地应用于电话通信领域。 MP3格式: Moving Picture Experts Group Audio Layer III,简称为MP3。它是利用 MPEG Audio Layer 3 的技术,采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的mp3文件,并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率,因此编码的结果是在保证了音质的同时又照顾了文件的大小。 mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。 Linear Scale格式:根据声音的变化率大小,把声音分成若干段,对每段用线性比例进行压缩,但是它的比例是可变的。 Logpcm格式:基本上对整个声音进行线性压缩,将最后若干位去掉。这种压缩方式在硬件上很容易实现,但音质比Linear Scale差一些,特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。 (b)“音乐芯片”介绍: (1)音乐的通道与音色: 包络(envelope)方波(patch) 通道(channel) 包络:合成音色的一部分,单位时间内音符输出的变化,常见有“ADSR” 方波:合成音色的一部分,单位时间内音符方波电流的变化。(另见三角波等) 通道:在同一时间内,芯片输出的音符个数,即“单音乐器”的个数。 PCT:模拟音色的一种,通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和,占空间小,但不够真实) FULL WAVE:通过采集一种乐器声音来模拟各个音符音高。(乐器声真实,但占用空间大,且采集音色音质要求高) (2)音乐的压缩: 由于音乐数据量庞大,对音乐数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的音乐内容。有以下几种方式: 音乐分段:将音乐中可以重复的部分截取出来,通过排列组合将内容完整地回放出来。 音色:根据音乐的丰满程度、需求程度,来确定Full wave,PCT、dual tone的选择,各个音色占用空间不懂,音色质量也不同。。 数学压缩:主要是针对采样的音色(Full wave)进行压缩,这种方式也是有损压缩,对于要采集的音色进行降采样、处理等减小采集音色的大小(同语音类的修音)。
3、语音ROM空间的表述 语音芯片为表述的形象化,由语音长度来表示 a)普通语音芯片以6K采样率为语音长度计算标准,最大采样到22K。 b)录音IC以6K采样率为语音长度计算标准。 即:以6k采样率芯片可以播放的长度。
4、语音芯片的要素 相同品种的芯片成本与芯片的大小成正比。 a)I/O口的分配和ROM的大小(语音秒数)决定芯片成本。低秒数语音芯片其I/O口较少。 b)音质提高,采样提高,语音秒数缩短。 音质降低,采样降低,语音秒数变长 c) 语音秒数的计算方法:M/(n*f) M---ROM大小(bit) n*f---波特率.
7、应用范围 家电行业:电磁炉、电饭煲、冰箱、洗衣机、空调、风扇等等 安防报警:倒车雷达、叉车报警器、家庭防盗等 医疗器械:弱视治疗仪、血压计、臭氧治疗仪等等 广告媒体:语音广告牌、镜子广告机、迎宾器等等 玩具系列:语音识别、小汽车,布娃娃等等 智能交通:一卡通设备、红绿灯提醒等等 汽车电子、娱乐设备、教育用品、消费电子、工业控制等等的运用行业
8.语音芯片在应用中常遇到的问题及怎么解决方法 (1)、问:WT588D不支持64M以上的FLASH,请问有什么可替代的吗? 答:WTV020 可支持的FLASH规格可以扩大到128M,采用的是16位的DAC,所以具有很高的音质。
(2)、 问 : 请问芯片输出的声音有多大 ? 如果不够响亮怎么办 ? 答 : WTV WTB WT588D系列语音芯片内部自带功放 , 可直接驱动 0.5W/8 Ω 的喇叭 。 在普通的房间里面足够清楚 , 如果对音量要求比较 大 ,
请在喇叭外面接上共鸣腔 , 要想获得更大的音量 , 可外接 LM386 、 2822 等 放大电路。
(3)、问:芯片上电后,发热异常,是怎么回事?
答:是不是将某个输出脚(SPK+,SPK-)接地了?这两个脚要接扬声器或者悬空,千万不能接地!
(4)问:你的芯片可以用两节干电池供电吗? 答:可以。但是,当芯片不工作的时候,最好设置成休眠模式,要省电。不然,电池用不了多长时间,但要注意,在使用寿命快结束时。电池输出电压会下降,此外,等效串联内阻也会增加。这可能会导致供电不足,这时,请更换电池。(5)、在使用WTV芯片自己制作语音时,发现MIDI音乐部分声音远远比WAV声音小,请问该怎么解决此问题? 在软件上试听是一样大小的。 答:首先将WAV音量降低到与MIDI差不多;其次,通过调节外部的反馈电阻来调节音量大小。
(5)问:芯片播放语音时耗电300mA以上,可以降低吗? 答:WTV芯片正常播放功耗在60mA~200mA之间,如果你只是播放的时候功耗大,可以适当降低反馈电阻减小声音音量或者检查扬声器是否按照我司标准,如果是待机功耗也大,建议检查硬件电路。
更多知识及语音芯片供应……