这些小活动你都参加了吗?快来围观一下吧!>>
电子产品世界 » 论坛首页 » 嵌入式开发 » MCU » 嵌入式中C和汇编的一些技巧

共3条 1/1 1 跳转至

嵌入式中C和汇编的一些技巧

高工
2008-06-22 14:44:56     打赏
     ARM汇编部分:

       A. 条件执行

      CMP R0,#5

      BEQ BYPASS

      ADD R1,R1,R0

      SUB R1,R1,R2

   BYPASS ......

       可以替代为:

       CMP R0,#5

       ADDNE R1,R1,R0

       SUBNE R1,R1,R2

       ......

        如果被跳过的指令序列并不进行复杂的操作,使用条件执行都要比使用转移好,因为ARM转义指令一般要用3个周期来执行。

       对于以下的条件执行可以这样来写汇编:

       ; if ( (a = = b) && (c = = d) )   e++

       CMP R0,R1

      CMPEQ R2,R3

      ADDEQ R4,R4,#1

        C语言部分:

       A.  很多人认为以下两种变量定义空间效率一样的:

①        char a;

short b;

char c;

int d;

②        char a;

char b;

short c;

int d;

       其实不然,定义次序的不同导致最终映像中不同的数据布局,实际中第二种定义方式能够节约更多的存储空间,所以在变量声名时,最好把所有相同类型的变量放在一起定义,这样可以优化存储器布局。

        B.  我们总是设法使用short或者char来定义变量,认为这样能够节省存储空间,但也有例外,我们先来看下这几段C代码及其相应的汇编:

       ①  C代码:

int addition(int a)

        { return a+1; }

        汇编:

        ADD a1,a1,#1

        ②  C代码:

        short addition(short a)

{ return a+1; }

       汇编:

ADD a1,a1,#1

MOV a1,a1,LSL #16

MOV a1,a1,ASR #16

MOV PC,LR

        ③  C代码:

        char addition(char a)

{ return a+1; }

       汇编:

ADD a1,a1,#1

AND a1,a1,# &FF

MOV PC,LR

        因为char 类型、short类型分别是8位、16位,完成加法操作后,需要在32位的寄存器中进行符号扩展,所以使用32位的int以及unsinged int做加法效率最高。

        C.冗余变量要消耗空间,许多人都不赞同使用它,但是下面这种情况就不同了。

int m ( void );

    Int n ( void );

    Int fg;

        ① void func_1 ( void )

{

fg += m ( );

fg += n ( );

}

        ②  void func_2 ( void )

        {

            int tmp = fg;

            tmp += m ( );

            tmp += n ( );

            fg = tmp;

}

        在func_1 ( ) 中每次对全局变量fg的加法操作都需要从存储器load到寄存器里,加完数据后还要store回原来的存储器,所以这个函数就进行了两次load和两次store操作。在func_2 ( ) 中,tmp作为局部变量,系统为其分配一寄存器,首先执行一次load操作后,由tmp进行加法,最后只需一次store操作把结果送给fg,节省了很多时间,毕竟读/写存储器的时间耗费要比读/写寄存器高得多。

        D.关于计数循环的问题,一般我们都会使用累加计数的方式,递减计数用得比较少,虽然从C代码上看累加和递减两种方式时间复杂度相同,但是在对时间要求严格的嵌入式领域,这两者执行时间还是有差别的。

       ①  累加计数方式:

        for ( i = 1; i < times; i ++ )

        {

           tmp = tmp * i ;

}

       汇编:

……

0x06: MUL R2,R1,R2

0x10: ADD R1,R1,#1

0x14: CMP R2,R0

0x18: BLE 0x06

……

       ②  递减计数方式:

        for ( i = times; i > 1; i -- )

        {

           tmp = tmp * i ;

}

       汇编:

……

0x06: MUL R0,R1,R0

0x10: SUB R1,R1,#1

0x14: BNE 0x06

        ……

         从上面的汇编可以看出,累加计数需要用到专门的CMP指令来判断条件,而递减计数只需要利用条件执行的NE进行判别,当循环次数的量很大的话时间效率就有差别了。




关键词: 嵌入式     汇编     一些     技巧    

菜鸟
2010-04-14 17:34:15     打赏
2楼

学习还没有深入到部分。。。。


助工
2010-04-14 21:45:11     打赏
3楼
不知道这是不是楼主自己总结的,总体上说总结得不错,但个人觉得如果再做更深一步的分析会更好,现在的结果对于某些特定条件可能存在问题。

先要强调一下,我回帖是想救问题进行深入探讨,这样可以得到更准确的结论,绝不是为了炫耀,也许加上我的说明会更严谨。



       A.  很多人认为以下两种变量定义空间效率一样的:
①        char a;
short b;
char c;
int d;
②        char a;
char b;
short c;
int d;
       其实不然,定义次序的不同导致最终映像中不同的数据布局,实际中第二种定义方式能够节约更多的存储空间,所以在变量声名时,最好把所有相同类型的变量放在一起定义,这样可以优化存储器布局。
这种理解是对的,但实际上编译器处理不是想象的这么简单,我对GCC编译出来的结果进行过分析,始终没有找到规律,比如连续定义两个全局数组long buf1[1024],buf2[1024];,编译结果是buf1和buf2地址连续,但经常出现删除了数组buf1,重新编译结果buf2的地址仍然保持不变,没有变为buf1对应的地址。

C.冗余变量要消耗空间,许多人都不赞同使用它,但是下面这种情况就不同了。
int m ( void );
    Int n ( void );
    Int fg;
        ① void func_1 ( void )
{
fg += m ( );
fg += n ( );
}
        ②  void func_2 ( void )
        {
            int tmp = fg;
            tmp += m ( );
            tmp += n ( );
            fg = tmp;
}
        在func_1 ( ) 中每次对全局变量fg的加法操作都需要从存储器load到寄存器里,加完数据后还要store回原来的存储器,所以这个函数就进行了两次load和两次store操作。在func_2 ( ) 中,tmp作为局部变量,系统为其分配一寄存器,首先执行一次load操作后,由tmp进行加法,最后只需一次store操作把结果送给fg,节省了很多时间,毕竟读/写存储器的时间耗费要比读/写寄存器高得多。
思路也是对的,只是没有对特殊情况加以说明,首先第一种方式如果打开优化中间过程也会处理成寄存器操作(假定有空余寄存器使用),其次后一种方法只是在还有空余寄存器时才是你说的方式,如果没有空余寄存器,还是会为局部变量在RAM中申请临时空间,和全局变量没有区别。

D.关于计数循环的问题,一般我们都会使用累加计数的方式,递减计数用得比较少,虽然从C代码上看累加和递减两种方式时间复杂度相同,但是在对时间要求严格的嵌入式领域,这两者执行时间还是有差别的。
       ①  累加计数方式:
        for ( i = 1; i < times; i ++ )
        {
           tmp = tmp * i ;
}
       汇编:
……
0x06: MUL R2,R1,R2
0x10: ADD R1,R1,#1
0x14: CMP R2,R0
0x18: BLE 0x06
……
       ②  递减计数方式:
        for ( i = times; i > 1; i -- )
        {
           tmp = tmp * i ;
}
       汇编:
……
0x06: MUL R0,R1,R0
0x10: SUB R1,R1,#1
0x14: BNE 0x06
        ……
         从上面的汇编可以看出,累加计数需要用到专门的CMP指令来判断条件,而递减计数只需要利用条件执行的NE进行判别,当循环次数的量很大的话时间效率就有差别了。
用GCC编译器不开优化功能不一定得到你这样的结果,0x14: BNE 0x06前面还会有一次多余的比较操作,这种情况我实际验证过。


共3条 1/1 1 跳转至

回复

匿名不能发帖!请先 [ 登陆 注册 ]