电子产品世界 » 论坛首页 » 嵌入式开发 » 国产MCU » 聆思CSK6大模型多模态语音交互开源SDK介绍

共2条 1/1 1 跳转至页

聆思CSK6大模型多模态语音交互开源SDK介绍

ListenAI

菜鸟

2024-06-13 15:57:21 打赏

只看楼主 1楼

聆思CSK6大模型多模态SDK除了支持语音交互之外，还支持图像方面的交互，包括对图像的识别以及图片生成。用户可以通过语音交互、摄像头拍照作为交互入口，实现与大模型的多模态交互。

SDK主要包含以下功能：

●语音交互：支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图：支持通过摄像头拍摄图像并上传给大模型进行识别，支持依据识图内容进行提问

●图片生成：支持通过语音交互描述画面内容，令大模型生成图片并显示至套件屏幕上

语音交互模式支持的语音交互模式

多模态SDK支持三种交互方式，其特点如下：

模式	唤醒方式	交互方式
按键交互	按下屏幕麦克风图标或开发板K3按键	按住按键说话，松开提交
语音唤醒(单轮)	唤醒词 “小美小美”	听到提示音 “在呢” 后进行提问，每次提问均需要唤醒
语音唤醒(多轮)	唤醒词 “小美小美”	听到提示音 “在呢” 后进行提问，可持续对话，当超过20秒无语音输入时自动结束本次交互

语音交互模式的切换

在待机页面，下滑可调出下滑菜单，点击下滑菜单中的设置图标，可进行配置页面。

6.13.png

选中对应的模式后，点击左上角即可回到待机页面并生效。

按键交互模式

设置成按键交互(按键唤醒)模式下，按住屏幕上的麦克风按钮或开发板上的K3按键，即进入录音状态，松开按键则结束录音并提交。

6.13-2.png

语音唤醒模式

当设置为语音唤醒(单轮)或语音唤醒(多轮)，可通过唤醒词 —— “小美小美” 对设备进行唤醒，当听到 “在呢” 的提示音后，即可正常进行语音输入。

退出对话

在使用过程中，点击左上角即可结束本轮对话回到待机页面，此操作会同步清除本次对话的上下文信息。

拍照识图

在待机页，点击拍照按钮即可进入取景页面，对准要拍照的物体，点击右侧中间的拍照键完成抓拍，确认画面抓拍正常后（无晃动模糊的情况），点击右侧的 √ 进行提交识别。

6.13-3.png

文生图

在设备进入语音交互状态后，可以通过带有绘画意图的提示词让大模型进行作画，比如：

●“画一只熊猫”

熊猫.png

●“画一个人正在使用电脑”

6.13-4.png

SDK资源下载

语音视觉大模型开发板 SDK：https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

DEMO固件下载：https://docs2.listenai.com/x/UzjbjIAxw

开发板.png

关键词：聆思csk6 大模型开发板 Zephyr RTOS

xqh518

院士

2024-06-13 16:25:09 打赏

2楼

谢谢分享，学习了，“小度小度”变“小美小美”了。

共2条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
「破界·共生」——2026蓝牙技术变革与工程实战思辨会
【“龙虾”创意工坊征集令——用XClaw玩出最出乎意料的智能终端】有奖活动~
2026年“我要开发板活动”第三季，开始了！
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！

我要赚赏金打赏帖
【S32K3XX】FlexCAN 模块配置使用被打赏￥30元
【S32K3XX】FlexCAN RAM 资源分配整理被打赏￥25元
【S32K3XX】IPCF 适配核间中断处理被打赏￥21元
【S32K3XX】IPCF 核间通讯模块UNMANAGED方式使用被打赏￥29元
片外存储Flash使用方法(Arduino IDE环境)被打赏￥22元
三分钟快速上手ESP-NOW(ArduinoIDE环境)被打赏￥23元
【S32K3XX】LPSPI参数配置说明被打赏￥21元
在WT9932C61-TINY上实现超声波测距被打赏￥22元
基于WT9932C61-TINY的环境构建及OLED屏驱动测试被打赏￥20元
【S32K3XX】Core-to-Core 中断使用被打赏￥21元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

聆思CSK6大模型多模态语音交互开源SDK介绍

回复