在这项工作中,我们提出了一种新的高效的人类动作识别方法,称为视频变换器网络(VTN)。它利用了计算机视觉和自然语言处理的最新进展,并将其应用于视频理解。所提出的方法允许我们创建轻量级的CNN模型,仅使用RGB单摄像头和通用CPU就可以实现高精度和实时速度。此外,我们解释了如何通过从多个具有不同模式的模型中提炼出一个单一模型来提高准确性。我们与最先进的方法进行了比较,表明我们的方法在著名的动作识别数据集上的表现与大多数方法相当。我们使用现代推理框架对模型的推理时间进行了基准测试,并认为我们的方法在速度/精度权衡方面与其他方法比较有利,在CPU上以每秒56帧(FPS)的速度运行。模型和训练代码都是可用的1。
打赏帖 | |
---|---|
【Zephyr】MCXN947 Zephyr 开发入门适配shell被打赏20分 | |
【我要开发板】6.联合MATLAB记录数据被打赏50分 | |
【瑞萨RA2E1开发板】:使用ADC功能实现位移传感器采集方案被打赏20分 | |
【nRF7002DK】基于sht30的温湿度计被打赏20分 | |
【nRF7002DK】日志打印被打赏20分 | |
【换取手持示波器】RGB屏幕移植ARM-2D库被打赏35分 | |
【分享开发笔记,赚取电动螺丝刀】分享一下如何解决瑞萨RA2E1使用printf编译报错问题被打赏27分 | |
rtthread硬件加密-5hash加密分析被打赏10分 | |
【换取手持示波器】Mongoose 零代码创建网页仪表盘被打赏33分 | |
【分享开发笔记,赚取电动螺丝刀】基于.Net6.0 WPF简单做一个MQTT收发小工具被打赏24分 |