STM32F407和F28335浮点运算性能比较-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 综合技术 » 物联网技术 » STM32F407和F28335浮点运算性能比较

共5条 1/1 1 跳转至页

STM32F407和F28335浮点运算性能比较

Snake0301

高工

2013-11-16 23:55:10 打赏

只看楼主 1楼

最近坛子里面ARM和DSP的DIY活动如火如荼

STM32F407本身自带有浮点运算单元（FPU），很多时候就在想

虽然一个面向消费，一个面向工业

FPU和DSP到底那个强一些呢？

最近看到一个帖子，觉得很有意思，转过来大家一起研究一下。

这几天刚拿到STM32F4的评估板，STM32F4这次的卖点就是FPU和DSP指令集，关注了挺长时间，这次就想测试一下STM32F4的浮点性能，如果满足就升级自己飞控的架构。本来用STM32F103+28335双核架构，F28335当浮点处理器用，调试起来比较麻烦，所以一直想换了。

测试代码就是用的我飞控的算法，全部使用浮点运算，包含姿态和位置两个7阶和9阶的卡尔曼滤波器，包含大量的矩阵运算以及部分导航算法和PID控制器等，还有部分IF和SWITCH包含跳转的判定语句，相比纯算法算是一个比较综合的运算。

测试环境：
F28335：CCS V3.3，使用TI优化的数学库，不开优化，程序在RAM里执行。
STM32F4：KEIL V4.7，使用ARM优化的数学库，不开优化。

测试方法：
F28335：在飞控算法入口设置断点，清零CCS的CPU计数器(profile->clock)，然后STEP OVER，记录下CPU的计数
STM32F4：在飞控算法入口设置断点，记录下Register窗口内算states计数器，然后STEP OVER，记录下新的计数器数值，与之前的数值相减得到CPU计数

测试结果：
F28335：253359个CPU周期，除以150MHZ，大约是1.69ms
STM32F4：一共285964个周期，除以168MHZ，大约是1.7ms,比F28335略慢

结论就是，对于包含相对较多跳转的综合浮点算法而言，STM32F4似乎并不慢多少。

抛开架构因素，从纯浮点运算方面来看的话。STM32F4的FPU加减乘指令VADD.F32、VSUB.F32、VMUL.F32都是单周期指令，而除法VDIV.F32耗费14个周期。
例如：a = a / b;产生的汇编为：

0x08000220 ED900A00 VLDR s0,[r0,#0x00]
0x08000224 4804 LDR r0,[pc,#16] ; @0x08000238
0x08000226 EDD00A00 VLDR s1,[r0,#0x00]
0x0800022A EE801A20 VDIV.F32 s2,s0,s1
0x0800022E 4803 LDR r0,[pc,#12] ; @0x0800023C
0x08000230 ED801A00 VSTR s2,[r0,#0x00]

复制代码 F28335： F28335的FPU有加减乘法指令，都是双周期的，由于没有硬件除法指令，F28335这里是用软件模拟的浮点除法，汇编可以看到 LCR $div_f32.asm字样，需要19个时钟周期。
例如：a = a * b,产生的汇编为：

0087B2 E203 MOV32 *-SP[4], R0H
0087B4 E2AF MOV32 R1H, *-SP[6], UNCF
0087B6 E700 MPYF32 R0H, R1H, R0H
0087B8 7700 NOP //需要让流水线等待FPU运算完毕，所以需要NOP
0087B9 E203 MOV32 *-SP[4], R0H

复制代码除法：

0087BD E203 MOV32 *-SP[4], R0H
0087BF E2AF MOV32 R1H, *-SP[6], UNCF
0087C1 7640 LCR $div_f32.asm:52:71$
0087C3 E203 MOV32 *-SP[4], R0H

复制代码结论：
可见单从浮点处理器来说，F28335是不如F4的FPU的。但是由于F28335是哈佛架构，有较长的流水线，可以在一个时钟周期里完成读取，运算和存储，所以程序连续运行的话，就比ARM快上许多许多，比如执行一次a = a + b只需要5个时钟周期，但是缺点就是一旦要跳转，就必须清空流水线，如果是

for(i = 0;i < 1000; i ++)
a = a + b;

复制代码这样的运算，速度反而要比ARM慢（测试下来单次是17周期，ARM是14）.所以说这就是ARM和DSP不同的地方了。

看看这次测试比较，感觉环境还是有一定的问题：

1、F28335是在RAM中运行，并且两者都是在仿真器环境中进行运算，还是离线在Flash中跑比较靠谱。

2、两者编译平台一个是CCS，一个是KEIL，对通用语句的优化，有待商榷。

3、ARM和TI的数学库中，各自支持的运算种类不一样。

不知道各位大神有何高见。

等闲下来，也做个这个测试玩玩。

啸风

专家

2013-11-17 00:05:47 打赏

2楼

先放word里转一下吧

liklon

高工

2013-11-17 00:51:19 打赏

3楼

睡觉前看到这经典的对比分析，爽…明天复制到word备份一下…

jackwang

院士

2013-11-17 10:58:21 打赏

4楼

这种帖子能够给你真的东西，推荐~~~

antonine

高工

2013-11-17 22:11:32 打赏

5楼

LZ转贴最好备注一下哦

另外感觉这个测试做的不是特别严谨

共5条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
硬核工程师专属补给计划——填盲盒
“我踩过的那些坑”主题活动——第002期
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！
高校联络员开始招募啦！有惊喜！！
【工程师专属福利】每天30秒，积分轻松拿！EEPW宠粉打卡计划启动！
送您一块开发板，2025年“我要开发板活动”又开始了！

我要赚赏金打赏帖
【树莓派Zero2W】介绍、系统安装、人脸检测被打赏￥27元
【STM32F103ZET6】12:RTOS-详细介绍使用cubeMX软件初建RTOS配置过程被打赏￥28元
【分享开发笔记，赚取电动螺丝刀】MAX78000开发板读取摄像头后，使用串口通讯，上位机显示图像被打赏￥27元
【分享开发笔记，赚取电动螺丝刀】MAX78000开发板摄像头的读取，并在TFT屏幕上显示被打赏￥29元
【STM32F103ZET6】11:读取DS18B20数字温度传感器被打赏￥24元
Chaos-nano与FreeRtos对比，基于atmega328p平台被打赏￥28元
【S32K3XX】MPU 功能验证被打赏￥28元
Chaos-nano:专为低资源单片机设计的轻量级协作式异步操作系统（ATMEGA328P轻量级操作系统）—— 详细介绍被打赏￥16元
FPGA配置被打赏￥10元
Chaos-nano协作式异步操作系统：赋能MicrochipAVR8位单片机的革新之路被打赏￥15元

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

STM32F407和F28335浮点运算性能比较

回复