OpenVINOTM,给你看得见的未来!>>
电子产品世界 » 论坛首页 » 综合技术 » 语音合成技术及其在嵌入式领域的应用

共1条 1/1 1 跳转至

语音合成技术及其在嵌入式领域的应用

菜鸟
2003-03-08 18:37:00    评分
一、 什么是语音合成技术 语音合成技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术之一,是使机器具有类似于人的说话能力的前提条件。按照人类语言功能的不同层次,语音合成可分成三个层次: (1)从文字到语音的合成(Text-To-Speech); (2)从概念到语音的合成(Concept-To-Speech); (3)从意向到语音的合成(Intention-To-Speech)。 这三个层次反映了人类大脑中形成语言的不同过程,涉及人类大脑的高级神经活动。不难想象,即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务。现在技术上的研究进展还没有达到语音合成的第二层次。换句话说,现在的语音合成技术还仅仅相当于"人工嘴巴"。为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题。从这一点讲,文语转换系统实际上也可看作一个人工智能系统。文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持。 二、 中文语音合成技术发展现状 随着语音合成技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音合成技术开发出的计算机应用软件产品,几乎深入到社会的每个行业和每个方面。由于汉语言目前在全球的广泛使用,也导致了汉语语音合成技术的市场需求、应用前景和经济效益是非常巨大的。 技术方面: 近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的研究主要集中在按规则文语转换,即将书面语言转换成口头语言。而最新的语音合成技术则是基于语境相关思想的大语料库合成技术。 在语音合成技术的发展中,早期的研究主要是采用参数合成方法。但是经过多年的研究与实践表明,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换系统的实用要求。自八十年代末期开始,语言合成技术有了新的进展,特别是1990年基音同步叠加(PSOLA)方法的提出,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实现,因此具备了一定的商用前景。而大语料库合成技术是采用原始语音片断作为合成单元,需要重点处理的是原始语音片断的获取方法、挑选方法以及拼接算法,同时各种机器学习和数据挖掘的方法也应用在大语料库合成系统用于海量信息的处理方面。其合成语音的音质较上述方法有质的提高,虽然存在语料库的录制和制作工作量巨大、需要深厚的基础研究积累等缺陷,但系统的商业前景却是无可限量的。 应用方面: 目前在电信声讯领域、企业级呼叫中心领域以及桌面软件领域,语音合成已经得到广泛的应用。预计未来几年内,语音合成技术的应用必将呈现爆发式增长。语音合成技术的发展和产业化应用与业内厂商和科研机构的共同努力是分不开的。科大讯飞作为全国唯一以语音技术为主要产业化方向的国家863计划成果产业化基地和火炬计划国家级骨干软件企业,在2000年,联合国内多家语音领域的权威科研机构成立了中国中文语音创业联盟,以整合最优秀的人才和机构共同推动中文语音技术的发展,并于2001年牵头制定了中文语音技术标准。 三、 语音合成技术在嵌入式设备中的应用 随着科学技术的发展、现代化水平的提高,各类语音的需求层出不穷,这一点得到了学术界、产业界的高度重视。由于语音合成系统对于运算和存储资源要求比较高,限制了TTS技术的应用范围,过去主要局限在服务器级和桌面级的应用。然而,近几年随着嵌入式技术的蓬勃发展,嵌入式设备越来越受到社会的认同,为了满足用户对于嵌入式设备更便捷、更自然使用的需求,将语音技术应用到嵌入式设备中成了必然的趋势。从中文语音合成技术的现状看,由于语音合成技术的算法导致了它需要在很大的系统空间上运行,对文本前端的处理数据的量是非常巨大,所以很难在小型的嵌入式设备中应用。针对这一问题,科大讯飞公司在2001年成功地推出了整个语音产业界最小化的轻量级语音合成系统-InterSound系统。InterSound系统是一个基于小型音库的高性能语音合成系统,是在保证语音质量和表现力的前提下,尽可能地减小语音合成系统的运算、存储资源消耗,使得系统可以在极小的存储空间内(1MB以下)实时实现较高自然度的语音合成。 目前,嵌入式设备种类繁多,系统结构也复杂多样,需要针对各类不同的嵌入式设备提出各种解决方案,如嵌入式语音软件开发平台、语音合成板卡、语音合成芯片。在讯飞,它们的核心技术都是InterSound语音合成系统。其中语音合成板卡和芯片主要是针对不宜以软件方式实现语音合成的应用领域,比如固定电话短消息播放、车载信息终端语音播报、智能仪表、智能玩具、电子书、汽车报站器、电子地图、电子导游、电子词典等。语音合成卡的成本比语音合成芯片高,但语音合成卡的优势在于处理能力更强、合成语音的自然度更高,同时可以针对行业信息特点进行定制,因此在高端应用中受到客户的广泛青睐。 随着嵌入式应用的发展,以及各项关键技术的逐渐成熟,语音技术作为一种便捷的信息获取方式而必将成为该领域必不可少的技术之一。



关键词: 语音     合成     技术     及其     嵌入式     领域     应用     系统    

共1条 1/1 1 跳转至

回复

匿名不能发帖!请先 [ 登陆 注册 ]