如何在FPGA上实现硬件上的FFT算法-电子产品世界论坛

这些小活动你都参加了吗？快来围观一下吧！>>

电子产品世界 » 论坛首页 » 嵌入式开发 » FPGA » 如何在FPGA上实现硬件上的FFT算法

共3条 1/1 1 跳转至页

如何在FPGA上实现硬件上的FFT算法

船长demons

高工

2019-06-29 13:27:04 打赏

只看楼主 1楼

快速傅里叶变换（FFT）作为计算和分析工具，在众多学科领域（如信号处理、图像处理、生物信息学、计算物理、应用数学等）有着广泛的应用。在高速数字信号处理领域，如雷达信号处理，FFT的处理速度往往是整个系统设计性能的关键所在。
针对高速实时信号处理的要求，软件实现方法显然满足不了其需要。近年来现场可编程门阵列（FPGA）以其高性能、高灵活性、友好的开发环境、在线可编程等特点，使得基于FPGA的设计可以满足实时数字信号处理的要求，在市场竞争中具有很大的优势。

在FFT算法中，数据的宽度通常都是固定的宽度。然而，在FFT的运算过程中，特别是乘法运算中，运算的结果将不可避免地带来误差。因此，为了保证结果的准确性，采用定点分析是非常必要的。

1 FFT算法原理

FFT算法的基本思想就是利用权函数的周期性、对称性、特殊性及周期N的可互换性，将较长序列的DFT运算逐次分解为较短序列的DFT运算。针对N=2的整数次幂，FFT算法有基-2算法、基-4算法、实因子算法和分裂基算法等。这里，从处理速度和占用资源的角度考虑，选用基-4按时间抽取FFT算法（DIT）。对于N=4γ，基-4 DIT具有log4N=γ次迭代运算，每次迭代包含N／4个蝶形单元。蝶形单元的运算表达式为：

其信号流如图1。式中：A，B，C，D和A′，B′，C′，D′均为复数据；W=e-j2π/N。进行1次蝶形运算共需3次复乘和8次复加运算。N=64 点的基-4DIT信号流其输入数据序列是按自然顺序排列的，输出结果需经过整序。64点数据只需进行3次迭代运算，每次迭代运算含有N／4=16个蝶形单元。

2 FFT算法的硬件实现

2．1 流水线方式FFT算法的实现
为了提高FFT工作频率和节省FPGA资源，采用3级流水线结构实现64点的FFT运算。流水线处理器的结构如图2所示。

每级均由延时单元、转接器（SW）、蝶形运算和旋转因子乘法4个模块组成，延时节拍由方框中的数字表示。各级转接器和延时单元起到对序列进行码位抽取并将数据拉齐的作用。每级延时在FPGA内部用FIFO实现，不需要对序列进行寻址即可实现延时功能。数据串行输入，经过3级流水处理后，串行输出。
转接器有一定的工作规律。例如，当第0级变换做完进入转接器SW1前，先对后三路数据进行一定节拍的延时，延迟节拍分别为4，8，12。为了说明规律，把输入转接器的四路数据按照前后次序进行分组，每4个时钟节拍为1组，共16组，如图3（左）所示。在数据流串行经过转接器SW1时，第0组中的数据保持不变，第1组中的数据与第4组中的数据交换；5不变，2和8交换，3和12交换，6和9交换；10不变，7和13交换，11和14交换，15不变。交换完毕后，前三路数据经过延迟节拍分别为12，8，4的FIFO存储器输出，位置关系如图3所示。\

上述转换规律对于SW2也是适用的，只是转接器前后的延时节拍和分组的大小有所不同。
2．2 存储单元
为了实现算法的流水线设计，存储器RAM设计为64×16 b的双端口RAM，即在时钟信号和写控制信号同时为低电平时，从输入总线写入RAM；在时钟信号和读控制信号同时为高电平时，从RAM输出数据。
ROM为17&TImes;16 b的ROM，储存经过量化后的旋转因子，旋转因子为正弦函数和余弦函数的组合。根据旋转因子的对称性和周期性，在利用ROM存储旋转因子时，可以只存储旋转因子的一部分。
2．3 运算结构
Radix-4蝶形运算单元是整个FFT处理器中的核心部件。在用Radix-4运算器计算时需要并行输入数据，如果能以并发数据输入的话，则同步性和控制度较好，但实际上常要进行串并之间的转换。存储RAM按单节拍输出16 b位宽数据，选择器不停旋转送入到确定的位置，每4点全部到位后R-4使能有效；然后4个时钟节拍得到有效结果数据，再通过选择器旋转送入到对应存储 RAM中。
复数运算中，对应复数的实部和虚部RAM用同一个地址发生器。地址发生器在进行RAM地址发生时采用两套地址，第一套是计数器按时钟节拍顺序产生的，用于输入数据的存储；第二套是由数据宽度为16 b的ROM产生的，ROM中存放的数据为下级运算所需倒序的序列地址，发生地址给RAM，然后RAM按倒序地址输出下级需要进行运算的数据。
2．4 块浮点结构
数字信号处理系统可分为定点制、浮点制和块浮点制，它们在实现时对系统资源的要求不同，工作速度也不同，有着不同的适用范围。定点制算法简单，速度快，但动态范围有限，需要用合适的溢出控制规则（如定比例法）适当压缩输入信号的动态范围。浮点表示法动态范围大，可避免溢出，但系统实现复杂，硬件需求量大，速度慢。
为了提高精度，并减少复杂度和存储量，采用块浮点结构。块浮点算法是以上两种表示法的结合。这种表示方法是，一组数共用同一个阶码，这个阶码是这组数中最大数的阶码。块浮点算法无需进行额外的指数运算，仅对尾数进行运算即可，其与定点运算一样方便，但需要在每级运算结束后进行本级运算溢出最大位数判断，以对数据块进行块指数调整。在调整时仅保留一位符号位，因而能够充分利用有限位长。这样处理比定点方法扩大了动态范围，并且提高了精度，比浮点运算在速度上有了提高。块浮点结构如图4所示。

3 结语

着重讨论基于FPGA的64点高速FFT算法的实现方法。采用高基数结构和流水线结构，大大提高了FFT处理器的运行速度。同时块浮点结构的引入，也大幅减少了浮点操作占用FPGA器件的资源数目，兼顾了FPGA高精度、低资源、低功耗的特点。从实验结果看，该方法可以满足高速实时处理数字信号的要求。

无厘头

工程师

2019-06-29 13:44:33 打赏

2楼

学习了！

Dummer3

工程师

2019-06-30 13:27:20 打赏

3楼

学习一下

共3条 1/1 1 跳转至页

发新帖

每日签到

有奖活动
【EEPW电子工程师创研计划】技术变现通道已开启~
发原创文章【每月瓜分千元赏金凭实力攒钱买好礼~】
【EEPW在线】E起听工程师的声音！
“我踩过的那些坑”主题活动——第001期
高校联络员开始招募啦！有惊喜！！
【工程师专属福利】每天30秒，积分轻松拿！EEPW宠粉打卡计划启动！
送您一块开发板，2025年“我要开发板活动”又开始了！
打赏了！打赏了！打赏了！

打赏帖
汽车+汽车电子电阻解释与分析被打赏5分
STM32F103的I2C驱动OLED动态显示被打赏30分
分享汽车通信和多媒体总线结构被打赏20分
【我踩过的那些坑】结构堵孔导致的喇叭无声问题被打赏50分
NUCLEO-U083RC学习历程38+串口通过队列的方式输出两个字符串被打赏20分
【我踩过的那些坑】分享一下调试一款AD芯片的遇到的“坑”被打赏50分
电流检测模块MAX4080S被打赏10分
【我踩过的那些坑】calloc和malloc错误使用导致跑飞问题排查被打赏50分
分享电控悬架的结构与工作原理（一）被打赏20分
多组DCTODC电源方案被打赏50分

热门分类
STM32	MCU
通讯及无线技术	物联网技术
电子DIY	板卡试用
基础知识	软件与操作系统
我爱生活	小e食堂

如何在FPGA上实现硬件上的FFT算法

回复