作者:琼州学院 王国勇 孙涛 徐文涛
指导教师:龙顺宇 杨伟
作品简介
【作品开发背景】:
基于具有面部表情的机器人头部系统研究涉及机械、材料、计算机、电子、控制、仿生学、生理学、心理学等诸多研究领域,已经成为目前人机交互和仿人技术领域的一个研究热点,并在此基础上将会对机器人的机械结构及驱动装置的设计提出更多特殊的要求。如果将面部表情再现技术应用于仿人机器人,使其具有表达感情与人机交互的能力,将从根本上改变机器人与人之间的关系,对机器人智能化程度的提高打下良好的技术基础。
美国著名心理学家阿尔陪特(Albert Mehrabian)认为,人类在进行感情表达时,言辞的使用仅仅占了7%,而声调占了38%,剩下的55%则有人类的面部表情和动作来完成。由此我们知道,人类的面部表情与动作在人类的感情表达中占据着重要的地位。
具有人类头部外形特征的仿人机器人的研究能够促使未来机器人朝着人性化、情感化方向发展,促进未来机器人与人类自然、和谐、友好地交流,其研究对于丰富和发展机器人学具有深远的科学意义。
如图3所示,佛蒙特州Life Naut项目的尼克·梅尔坐下与机器头Bina48聊天,实现了一定智能程度的机器人交互。本设计中利用了非特定语音识别技术、单片机智能处理技术、PWM舵机控制技术、音频文件解码技术、TTS技术、语境模式响应技术等融合构建了最终的参赛作品。
【参赛作品结构说明】:
由于机器头的脖子承受了头全部的重量,所以脖子的3个转向舵机为大扭矩的舵机,分别可实现真实的头部左右转动和抬头点头等动作。起支撑作用的是万向轮,考虑到万向轮的活动是随意和未知的,所以在万向轮部位的改造上,我们添加了弹簧圈,使万向轮的外环力矩增大,加上两个大扭力舵机臂杆的支撑,机械头变得更为稳固。眼睛的部位我们用了8个小型的舵机,其中的4个实现眼球上下、左右转动,两个舵机控制眼皮的运动,另外的两个实现眉毛的运动。为了让机械人在与人的交互中更为生动和更具趣味性,我们让机器头的下颚和嘴唇也具有运动的功能。
【参赛作品功能与使用说明】:
机器头可模仿人类的表情动作,并且可感知外部环境参量,整个机械头部共使用了13个舵机,利用大扭矩舵机实现机械头部的转动和支撑,利用小扭矩舵机实现精细结构的动作,分别控制五官活动,由摄像头实现视觉,气体传感器实现嗅觉,静电传感器实现触觉,综合面部的传感节点使得机器头具有更多潜力功能,机械头在多个舵机及连杆的带动下可实现喜怒哀乐表情互动、诗词游戏、数学运算、唱歌互动等仿人类行为活动。
平台选型说明
本系统以竞赛组委会提供的51开发平台为设计平台,以STC15F2K61S2芯片为控制核心搭建了全部的功能构架。如图6所示,控制芯片一共处理和指控4大功能组成,首先由驻极体接收外部环境的语音信号,传送至语音识别处理单元进行语音识别,若识别结果正确则返回字符串给单片机进行判断,实现语音识别功能。
单片机主控控制语音解码的使能,如果语音识别结果正确,由单片机发送指令,让SD卡文件系统中的语音解码单元进行语音解码,随后将解码后的语音信号传送至功放中进行播报。
主控制核心还控制视觉传感器、声音传感器、气体传感器、静电传感器等传回的信号,进行智能判断以达到感官的功能研究,对于传感器传回的信号进行信号变换和信号调制,配合单片机内部数据编程进行智能感知,并且根据感知结果做出响应。
设计说明
一、拟人感官智能语音交互型机器人头部设计功能图:
整个机器头系统利用非特定语音识别技术、传感器技术、语音信号处理技术、PWM舵机控制技术等技术融合,构建了一个拟人可感知可运动的机器人头部,通过语音交互手段突破了原有传统的交互观念,属于机器人到现实世界的功能研究,未来可以将其应用于机器人巡检、电子保姆、机器人服务员、消费玩具、表情机器人、记忆机器人、生命探测、海底图像传送机器人等应用方面。
二、主要设计原理及方案:
1、非特定语音识别技术
1.1非特定语音识别方案
非特定人语音识别系统是用很广泛的说话人语音来训练识别系统模型,在保证有足够的数据来精确刻画语音单元的各种复杂的时变特性和协同发音的同时,也可忽略说话人之间的差异,从而降低了系统对单个的说话人建模的精度,因此这种识别系统的通用性好、应用面广,具有更广阔的研究前景。
从图8可以看出,输入的模拟语音信号首先要进行预处理,包括预加重、加窗分帧、端点检测等,接下来就是特征参数提取。特征提取主要是完成基于频谱的特征矢量的计算,最后是训练或识别阶段。在训练阶段,是为每个词条得到一个模型,保存为参考模板;在识别阶段,将待测语音生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果进行输出。
LD3320是一颗基于非特定人语音识别技术的语音识别/声控芯片。该芯片集成了语音识别处理器和一些外部电路,包括ADC、DAC、麦克风接口、声音输出接口等。该芯片不需要外接任何的辅助芯片如Flash、RAM等,直接集成在现有的产品中,即可以实现语音识别/声控/人机对话功能。LD3320完成非特定人语音识别,每次识别最多可以设置50项候选识别句,每个识别句可以是单字、词组或短句,长度为不超过10个汉字或者79个字节的拼音串。另一方面,识别句内容可以动态编辑修改,因此可由一个系统支持多种场景。