蝶形算法

2024-07-18

蝶形算法（精选4篇）

蝶形算法篇1

0 引言

DCT即离散余弦变换, 是傅里叶变换的实数部分, 因其与傅里叶变换能达到相同功能, 数据量又不大而被广泛采用H.264是应用非常广泛的视频图像编码标准, 其频域图像预处理采用的是基于4×4图像块的整数DCT。本文研究了如何由4×4浮点DCT得到4×4整数DCT, 并设计了4×4整数DCT的蝶形算法, 比较了蝶形算法与普通算法的运算量。

1 4×4浮点DCT

二维N×N图像块的DCT可以理解为先对图像块的每行进行一维DCT, 然后对经行变换的块的每列再进行一维DCT。可以表示为:

式 (1) 中, Xij是图像块X中第i行第j列图像或其残差值, Ymn是变换结果矩阵Y相应频率点上的DCT系数。可以用矩阵表示:

其中, N×N变换矩阵A中的系数:

设相应的4×4浮点DCT变换矩阵A为:

由式 (3) 可得:

2 4×4整数DCT

对于实数的DCT, 由于解码端的浮点运算精度问题, 可能造成解码后数据的失配。为此, H.264采用整数DCT技术, 在不损失图像精度的情况下, 有效减少计算量。

A中的a、b和c是实数, 而图像块X中的元素是整数。为此, H.264对4×4DCT中的A进行了改造。式 (2) 可以等效为:

仍有:

式 (5) 中, 矩阵C是在矩阵A的第一行、第三行除以a, 然后在A的第二行、第四行除以b, 并且方便起见, 令。E是一个尺度因子, 也可以说是个比例缩放矩阵。E中元素的大小可以从A变成C的过程中得到。符号“”表示 (CXCT) 结果中的每个元素乘以矩阵E中对应位置上的系数的值。

为了简化计算, 取d=1/2, 相应地系数b、c也应该调整。由于当d=1/2时有:

根据变换的正交性, 应有的结果为单位矩阵, 所以可推出:

因此当d=1/2时, 同时有:

接下来将矩阵C中的第2行、第4行以及CT的第2列、第4列乘以2, 同时尺度因子矩阵E相应地缩小以给予补偿。最终得到的整数DCT正变换的公式:

在进行变换时, 只计算式 (10) 中的 (CfXCfT) , 因为H.264将“”的运算融合到后面的量化过程中, 从而降低了整个运算的乘法次数, 提高了运算速度。所以实际的4×4整数DCT为:

这样, 式 (11) 中只剩下整数的加法、减法和移位 (乘以2) 操作。

式 (11) 被称为4×4整数DCT变换, Cf是变换矩阵。整数DCT变换与传统的浮点DCT变换运算结果近似, 但因为b和d的值有所变化, 所以两者结果有差别。

3 4×4整数DCT的蝶形算法

可以将式 (11) 的二维变换改造成两个一维变换:先对需要做变换的块 (矩阵) 的每一列做一维变换, 再对其结果的每一行做一维变换。以第一步对输入矩阵X的每一列做一维整数变换为例, 输出矩阵Z的第一列如式 (12) 所示。

其中, x0, …, x3是输入矩阵X的第一列, 而z0, …, z3是输出矩阵Z的第一列。此次变换需要12次加法和4次左移。

从式 (12) 可以看出, 有很多计算重复, 例如 (x0-x3) 就同时被z1和z3使用。为了避免重复, 可以将每次一维整数变换采用蝶形快速算法以节省时间。4×4整数DCT的一维快速变换算法如图1所示。

从图1可以看出, 做一维快速变换需要做8次加法及2次左移, 利用了运算中的冗余, 降低了计算量。表1给出了4×4整数DCT普通算法和快速算法的计算量。

可以看出, 4×4整数DCT快速算法的计算量几乎只有普通算法的一半, 节省了计算空间, 大大提高了运算速度。

摘要：H.264是应用非常广泛的视频图像编码标准。其频域图像预处理采用的是基于4×4图像块的整数DCT。研究了如何由4×4浮点DCT得到4×4整数DCT, 并设计了4×4整数DCT的蝶形算法, 比较了蝶形算法与普通算法的运算量。

关键词：4×4浮点DCT,4×4整数DCT,蝶形算法

参考文献

[1]毕厚杰.新一代视频压缩编码标准——H.264/AVC[M].北京:人民邮电出版社, 2005.

[2]MALVAR H S.Low-complexity length-4transform and quanlization with l6-bit arithmetic.ITU-T SGI6Doc.VCEG-N44[R1].Santa Barbara, USA:[s.n.], 2001.

[3]张晓燕, 谢珺堂.H.264的整数DCT变换编码与量化过程[J].军民两用技术与产品, 2005 (5) :49-51.

[4]于娜, 沈庭芝.新一代视频压缩标准H.264中数据的变换和量化.现代电视技术[J].2005 (2) :15-17.

[5]李朝晖, 等.数字图像处理及应用[M].北京:机械工业出版社, 2007.

[6]阮秋琦.数字图像处理学[M].北京:电子工业出版社, 2008.

小尺寸蝶形光缆的研制篇2

1.1 占用空间小

FTTH是唯一一个可以在服务区域内透明地、大规模地、可靠地提供Gb/s速率的全光接入平台。当运营商级的FTTH普及后, 一个中心局可能承担对10万个用户的光纤连接, 即使都采用PON技术, 分光比都达到1×32, 出局的光纤数也要在3 100条以上, 如果是较大的交换局, 那么出局光纤数有可能达到近万条[1]。如仍采用常规直径为3.0mm的蝶形光缆, 将会占用相当大的机房面积, 而占用空间更小的小尺寸蝶形光缆将能够更好地满足FTTH的要求。

1.2 耐弯折性好

伴随着中国电信和中国联通之间的重组, “光进铜退”、“光纤到户”项目的启动, 使得室内光缆正逐步替代通信电缆成为综合布线的主力, 尤其是小弯曲半径光缆, 将在未来拥有更大的市场。相比于当前其他光缆, 这种小尺寸蝶形光缆具有更加良好的耐弯折性 (在保证光纤正常衰减前提下) , 同时更节省材料, 降低光缆成本, 节约资源。

1.3 敷设成本低

在老区改造时, 施工过程中经常发生重新更换的光缆穿不过原有的暗管, 如更新管线, 则将增加成本, 小尺寸蝶形光缆将避免这种情况的发生。在新建小区时, 采用小尺寸蝶形光缆也比采用常规蝶形光缆更节约布线管路, 更能合理安排管线的布局。总之, 无论是架空还是地埋, 小尺寸蝶形光缆的机房使用效率更高, 占地面积更少, 管道利用率更高, 敷设成本更低, 敷设效率更高。

2 小尺寸蝶形光缆的研制

由于小尺寸蝶形光缆具有以上众多优点, 因此我们对其进行了深入的研究, 展开了一系列的设计、生产、测试及推广工作。

2.1 小芯径单模光纤的选用

在小尺寸蝶形光缆中我们采用的是小芯径单模光纤。在IEC标准中定义了C类互连用单模光纤, 互连用单模光纤按包层直径可分为125μm和80μm两类, 两者相应的涂覆层直径分别为245μm和165μm;按用途、耐弯曲性能、使用波长和模场直径等, 互连用单模光纤又可分为C1、C2、C3、C4四个类别。在相同的弯曲半径状态下, 相比于传统的125μm/245μm单模光纤, 80μm/165μm小芯径单模光纤 (下文简称80μm光纤) 的弯曲应力更小, 仅为传统单模光纤的64%, 从而降低了光纤因弯曲疲劳所造成的失效率, 同时也提高了光纤在生产时通过筛选强度的概率和耐疲劳参数 (即低静态疲劳) , 增加了光纤的寿命;在相同寿命的条件下, 80μm光纤的弯曲半径可以更小, 较适于FTTH和特殊场合使用。与现有的抗弯曲光纤相比, 80μm光纤不仅具有优异的抗弯性能, 而且尺寸更小, 原材料成本更低, 其包层直径和涂覆层直径仅为常规抗弯曲光纤的65%左右, 石英玻璃的用量约为常规光纤的41%, 树脂用量约为常规光纤的18%, 单位长度的光纤材料成本不到常规光纤的1/2。

2.2 结构设计

由于目前国内尚无厂家采用80μm光纤制作小尺寸蝶形光缆, 也没有相关标准和规范可以参照, 因此在小尺寸蝶形光缆的结构设计时我们参考了常规直径为3.0mm的蝶形光缆的结构尺寸要求, 并在其基础上进行一定比例的缩小。小尺寸蝶形光缆中采用的是涂覆层直径为165μm的小芯径单模光纤, 而常规蝶形光缆中采用的是涂覆层直径为245μm的G.657接入网用弯曲不敏感单模光纤, 两者的外径之比为0.67, 我们以此作为缩小比率, 并由此确定小尺寸蝶形光缆的外径为2.0 mm×1.5mm。图1示出了小尺寸蝶形光缆的结构。

2.3 生产工艺

在生产小尺寸蝶形光缆时, 80μm光纤的着色工艺及生产速度与普通光纤相同, 只需适当减小光纤着色模具的尺寸。在挤制小尺寸蝶形光缆护套时, 我们早期选用了与常规直径为3.0 mm的蝶形光缆挤出模芯相同结构的模芯, 由于该小尺寸蝶形光缆的成品光缆外径和所采用的80μm光纤的涂覆层直径都较小, 因此模芯的承线内孔和壁厚都做得更薄, 使得模芯承线段很难承受挤出时较大的料流压力, 常被挤弯或挤扁。在经过多次试制后, 我们重新设计了挤出模具的结构, 放弃了原有的挤管式模具, 改用完全没有承线的压力式模具。该挤出模具的外观与常规的挤压式模具相似, 只是在模芯的锥度上有两个对称的小孔, 用于放置加强件, 并且模芯和模套的锥角差也比常规的挤出模具小, 以免压力太大, 对光纤性能产生影响。挤出模具没有承线部分, 物料在成型过程中没有拉伸, 极易在模口处发生膨胀, 物料的膨胀程度和设备的挤出压力有关, 为此我们将模套的尺寸设计成略小于2.0 mm×1.5mm, 这样挤出时光缆的外观和尺寸控制都比较理想。由于挤出模具的结构对生产速度、光缆表面光洁度和圆整度、护套的同心度等都有很大的影响, 因此为避免挤出的护套出现偏心、裂缝和松包等缺陷, 我们根据所用的低烟无卤护套料选择了相应的配模系数 (1.0~1.1) 、拉伸比 (2.5~3.0) 以及适当的模具加工精度。在实际生产中, 应根据不同的设备, 采用适合的模具设计和制造工艺。

3 小尺寸蝶形光缆的性能测试

目前考核蝶形光缆和光纤各个方面性能的两个标准YD/T 1997—2009《接入网用蝶形引入光缆》和YD/T 1954—2009《接入网用弯曲损耗不敏感单模光纤特性》是根据现行蝶形光缆在生产及运行方面的实际情况制定的[2,3], 而我们研制的小尺寸蝶形光缆中采用了80μm新型光纤, 使之很难与绝大多数测试设备端口的连接器匹配。对此, 我们专门研究制定了一套可行的小尺寸蝶形光缆性能测试方案。在测试时, 小尺寸蝶形光缆通过熔接一段普通单模光纤进行过渡, 以获得与测量设备的有效连接, 小尺寸蝶形光缆和光纤的性能测试结果如表1和表2所示。从表中可见, 小尺寸蝶形光缆的性能优越, 相比于G.652D光纤, G.657光纤和80μm光纤的宏弯损耗更小。由于相比于G.657光纤, 80μm光纤更廉价, 因此80μm光纤不仅提高了光纤宏弯损耗的性能, 同时还在很大程度上降低成本。

4 小尺寸蝶形光缆的接续

由于目前的接续设备均为适合包层直径125μm光纤, 而小尺寸蝶形光缆中采用的80μm光纤的几何尺寸、模场直径与普通单模光纤存在较大差异, 因此在光纤接续方面, 小尺寸蝶形光缆存在较大的难度。在光纤接续时, 应对光纤熔接设备的放电时间及张力调节进行重新设置, 以适合80μm光纤的熔接。同时, 还需要通过大量的熔接测试, 推断80μm光纤接续的稳定性。经过大量的接续测试, 我们了解到在1 310nm和1 550nm测试波长下80μm光纤接续损耗平均值分别为0.04 dB和0.03dB。

5 结束语

本文对采用小芯径光纤的新型小尺寸蝶形光缆进行了前期研究, 希望通过对小尺寸蝶形光缆的设计、生产及测试方法的探讨, 达到抛砖引玉的作用, 可以预期随着光纤光缆相关技术的发展, 必然会涌现出更优异的制造和检测手段。

参考文献

蝶形算法篇3

超宽带 (Ultrawide-band) 信号是指-10 dB相对带宽大于20%或者绝对带宽大于500 MHz的无线电信号[1]。基于该类信号的超宽带技术, 目前已应用于短距离高速无线通信、穿障探测、探地雷达、灾难搜救、非接触医疗检测、汽车防撞等领域[2]。

超宽带天线作为信号的收发装置, 直接影响系统的性能。目前常用的超宽带天线形式主要包括TEM喇叭天线、双锥天线、对数周期天线、螺旋天线、Vivaldi天线和蝶形天线等[3,4,5]。其中平面结构的蝶形天线 (也称领结形天线) , 由立体的双锥形天线演化而来, 具有结构简单、便于设计安装、利于低频辐射等优点, 已应用在超宽带通信与探测领域[6,7]。

为改善天线宽带性能, 目前基于基本蝶形发展出了多种衍生结构。如双蝶形结构[6]、电容加载的条带状结构[7]等。其中荷兰Delft大学的A.A. Lestari与莫斯科航空学院Immoreev, I.Ya均提到了不同形式的分齿蝶形天线结构[8,9], 但对于分齿带来的性能影响, 未查阅到具体研究报道。本文以9齿蝶形为例, 通过建模仿真, 分析了辐射状分齿的蝶形天线, 并研究了不同分齿位置下天线驻波比的变化。研究发现该种结构可以在保证一定频段内天线性能的同时, 减轻天线重量。相对于基本蝶形天线, 分齿结构会使天线输入VSWR在中间频段产生抖动, 且抖动频段直接与分齿位置相关。针对300～480 MHz的频率范围, 进一步优化设计并制作了一款分齿蝶形天线, 实测显示该天线在294～488 MHz驻波比小于2, 其-10 dB带宽194 MHz, 相对带宽达49.6%。

1 天线结构

图1为分齿蝶形天线的实验原型结构图。结构参数中A, B为蝶形天线的宽与长;C为两页分齿位置间的距离;D为馈电端的宽度;分齿槽设计为从馈电端至末端的辐射形状, 各分齿等宽等距分布, 齿宽齿距均为E, 有E=A/ (2n-1) , 分齿数目n=9。定义分齿比例参数为p, 有p=B/C, 即天线长与分齿位置间的距离的比。

2 参数对天线性能的影响

对于本天线, 影响其性能的参数主要包括蝶形张角大小、长宽大小、分齿位置等。可由文献[10]知, 蝶形天线张角为90°时相对其他角度, 输入阻抗随频率变化更为平坦, 具有更好的宽带特性, 因此设计天线长宽尺寸相等 (A=B) , 张角为直角。通过仿真发现, 天线在尺寸的等比例放大的情况下, 输入端驻波比波形基本保持不变, 曲线整体向低频段移动。因此可以在确定天线结构后针对所需频段进行尺寸的等比例调整。同时, 针对1 GHz以下的频段范围, 分齿位置的变化时, 天线输入端驻波比波形变化明显, 而其他参数变化的影响有限。据此, 确定分齿比例p为关键仿真参数。以下通过分齿天线与普通蝶形天线的对比, 及不同分齿比例下天线性能的变化进行分析。

2.1 分齿蝶形天线与普通蝶形天线的性能对比

对两类天线进行建模仿真, 其尺寸数据如下:普通蝶形天线A=B=200 mm, D=10 mm;分齿蝶形天线p=2, 其他参数与普通蝶形天线相同。仿真得到两者的输入驻波比曲线 (VSWR) 如图2所示。

通过对比可以发现, 在相同尺寸下, 分齿天线重量相对普通天线减少35.2%。同时, 两者的驻波比随频率变化趋势相同, 在600 MHz以下, 两者性能基本一致。而在670～770 MHz部分, 分齿天线相对于普通天线驻波比产生抖动。因此, 当针对低频频段需求时, 完全可以使用分齿结构代替普通结构、降低天线重量。

2.2 不同分齿位置对天线性能的影响

针对分齿蝶形天线, 在上述基本参数的基础上 (即A=B=200 mm, D=10 mm, n=9, E=A/17) , 改变分齿比例, 研究分齿位置对天线性能的影响。经过多组仿真, 选取具有代表性的三条曲线 (p=2, 3, 8) , 如图3所示。对比不同分齿比例的驻波比曲线, 可以发现抖动出现的波段与分齿比例p直接相关。当p增大时 (即分齿位置向馈电端靠近时) , 抖动部分向低频段移动, 并且抖动幅度逐渐变小。其相对原普通蝶形天线重量分别减少35.3%, 41.8%和46.3%, 重量减轻比率逐渐增加。

3 实物设计与验证

为验证分齿结构天线的超宽带性能, 下文针对特定频段, 进行了设计优化与实物测试。

3.1 设计目标与仿真优化

设计目标为在300～480 MHz频段范围内, 设计一款分齿蝶形超宽带天线, 要求频段内其驻波比VSWR<2, 曲线平坦, 相对原天线重量减轻率大于40%。

针对上述设计要求, 依据关于分齿位置的仿真分析, 对分尺蝶形天线进行了进一步结构改进、参数优化, 得到如图4所示的天线驻波比曲线。其基本设计参数为A=B=172 mm, D=10 mm, n=9, p=3, E=10.12 mm。如图4所示, 仿真得到参数优化后的天线在300～496 MHz频段内, VSWR<2, 且波形平坦。

3.2 实物天线测试

对上述设计方案的天线进行了加工, 并使用安捷伦8363B型网络分析仪对天线实物进行测量, 得到其VSWR曲线如图5所示。

结果表明, 该天线在294.0～488.6 MHz的频率范围内, 天线馈电端VSWR<2, 波形平坦。其带宽范围与原仿真曲线相比 (300～496 MHz) , 频段基本一致。实际波形抖动出现在525～705 MHz波段, 低于仿真曲线 (577～754 MHz) , 但因处于工作频段外, 对天线性能无实质影响。分析实测频段结果与理论值间的差异, 认为主要来自于实际加工误差。

综上所述, 试制的分尺蝶形天线的-10 dB (VSWR<2) 频率范围为294.0～488.6 MHz, 带宽为194 MHz, 中心频率为391 MHz, 相对带宽达49.6%, 大于超宽带天线相对带宽25%的下限, 重量减轻比率达41.8%, 符合设计需求。

4 结语

研究了一种辐射状分齿蝶形天线。通过仿真发现, 在相同尺寸下, 分齿蝶形天线与普通蝶形天线的驻波比随频率变化趋势相同。在一定频段, 分齿结构会使天线VSWR曲线产生部分频段的抖动。其次, 仿真得出分齿比例p是影响天线性能的关键参数。随着分齿比例变小 (分齿位置靠近馈电端) , 分齿天线VSWR抖动幅度变小、抖动频段向低频范围移动, 而在其他频段, 分齿蝶形天线与普通碟型天线性能基本一致。因而该类分齿蝶形天线与普通蝶形天线相比, 可在保证一定频段驻波比性能指标的同时, 减轻天线重量。针对300～480 MHz的频段要求, 设计试制了一款分齿蝶形天线。实测显示, 天线在294.0～488.6 MHz的频率范围内, 天线馈电端VSWR<2, 波形平坦。其-10 dB带宽达194 MHz, 相对带宽49.6%, 带内VSWR波形平坦, 符合超宽带天线的要求, 并且相对同尺寸普通蝶形天线理论重量减轻比率达41.8%, 满足了设计需要。

参考文献

[1]BENDEDETTO Maria-Gabriella Di, GIANCOLA Guerino.Understanding ultra wide band radio fundamentals[M].北京:电子工业出版社, 2005.

[2]FONTANA RJ, FOSTER L A, FAIR B, et al.Recent ad-vances in ultrawideband radar and ranging systems[C]//IEEEInt.Ultra-Wideband Conf.Washington, DC:I UWC, 2007:19-25.

[3]POWELL J.Antenna design for ultra wideband radio[D].Massachusetts:Massachusetts Institute of Technology, 2004.

[4]李长勇, 杨士中, 张承畅.超宽带脉冲天线研究综述[J].电波科学学报, 2008, 23 (5) :1003-1008.

[5]吕文俊, 程崇虎, 朱洪波.小型平面超宽带天线的研究进展[J].中国电子科学研究院学报, 2007 (6) :3-6.

[6]LESTARI A A, YAROVOY A G, LIGTHART L P.AnEfficient Ultra-Wideband Bow-Tie Antenna[C]//31st Euro-pean Microwave Conference.[S.l.]:[s.n.], 2001.

[7]鲁飞, 冯全源.5.8 GHz RFID标签用共面波导蝶形缝隙天线的设计[J].数据采集与处理, 2008, 23 (Z1) :123-126.

[8]RAHARDJO E T.A UWB antenna for i mpulse radio[C]//Vehicular Technology Conference.[S.l.]:VTC, 2006:2630-2634.

[9]YAI mmoreev I, SAMKOV S V.Ultrawideband radar forremote detection and measurement of parameters of themoving objects on small range[C]//2004 Second Interna-tional Workshop, on Ultrawideband and Ultrashort I mpulseSignals.[S.l.]:International Workshop, 2004.

蝶形算法篇4

FFT(快速傅里叶变换)作为数字信号处理领域的核心算法之一[1]。蝶形运算单元是FFT设计的核心单元。本文研究基-4 FFT蝶形运算单元芯片设计。基于TSMC(台湾集成电路制造公司)0.18 μm CMOS标准单元库的半定制ASIC(专用集成电路)设计,采用自顶向下[2]、以关键模块为设计对象的设计方法,使用Verilog HDL描述系统,在Modelsim、Design Compiler和ASTRO等EDA(电子设计自动化)工具中完成。

1 基-4 FFT蝶形运算单元的设计

蝶形运算单元是FFT处理器的核心单元,蝶形运算单元结构的稳定性和运算的准确性直接影响到FFT处理器的性能[3]。分析基-4 FFT的特点,综合考虑面积、性能、功耗各个方面的因素,设计出结合流水线技术和并行结构的蝶形运算单元。

1.1 蝶形运算单元结构设计

基-4 FFT中蝶形运算单元的处理结构见图1。

传统的基-4算法是用3个复数乘法器和12个复数加法器构成[4],每次复数乘法器由4个实数乘法器和2个实数加法实现,每个复数加法由2个实数加法器实现。如此将基-4算法的计算结构直接映射至硬件需消耗大量的逻辑资源(12个实数乘法器和22个实数加法器)。

经过重新排列如下:

undefined

式中:A、B、C、D为复数操作数;A′、B′、C′、D′为一次基-4蝶形运算的结果;Wundefined、Wundefined、Wundefined为参与基-4蝶形运算的旋转因子。

令A=x+jX,B=y+jY,C=u+jU,D=z+jZ,Wundefined=cos(2πnk/N)-jsin(2πnk/N);则A′、B′、C′、D′可表示为:A′=x′+jX′,B′=y′+jY′,C′=u′+jU′,D′=z′+jZ′。其中:

观察x′和u′,X′和U′,y′和z′,Y′和Z′这4组表达式,可以发现其对应的实部和虚部括号内的内容相同,因此可以将流水线方式与并行结构的思想巧妙结合起来,用4个循环序列对各寄存器进行严格的时序控制,只用1个实数乘法器来实现一次复数乘法器,对应3个不同的复数乘法用3个实数乘法并行进行;加法器也并行进行循环使用。因此,完成一个基-4 FFT蝶形运算单元仅需要3个实数乘法以及6个实数加法,相比传统基-4 FFT蝶形运算单元,可节省75%的乘法器逻辑资源和72.7%的加法器逻辑资源。

蝶形运算单元的结构如图2所示。

1.2 数据切换单元

流水线技术与并行结构相结合的方法可以提高设计的灵活性,减小核心单元的面积,提高芯片运行的速度。流水线技术与并行结构相结合必须在时序的严格控制下执行[5]。

数据切换单元由状态机组成,以蝶形运算单元的第1级数据切换单元为例。每组数据输入乘法器分为4个状态(分别为A、B、C、D)。状态A输入乘数的实部和旋转因子的实部;状态B输入乘数的实部和旋转因子的虚部;状态C输入乘数的虚部和旋转因子的实部;状态D输入乘数的虚部和旋转因子的虚部。其他3级数据切换单元根据前一级运算结构输出以此类推得到。每一级的具体结果以及步骤见表1。完成4级运算后,并行输出结果的实部和虚部。

1.3 浮点乘法器的设计

本设计中浮点数乘法器需完成2个IEEE 754单精度浮点数之间的乘法,包括3个部分尾数乘法、指数加法和符号处理。浮点乘法器结构见图3。

乘法的处理可分为3个步骤:

a)对输入数据进行预处理,即判断输入中是否有0,同时将输入数据的符号位、指数部分以及尾数部分拆开分别处理,符号位寄存,指数部分相加,尾数部分预处理;

b)将23位尾数和1位隐含位“1”构成的24位有效数送入定点乘法器进行运算,并寄存预处理单元的其他输出数据;

c)接收定点乘法运算结果以及相关寄存器输出,将最终结果规格化为IEEE 754标准单精度浮点格式。

24位定点乘法器采用了经典的阵列式结构结合改进Booth算法的树形结构。阵列式定点乘法器结构规整,适合于流水线处理,但是流水线深度过深,初始时延过长,硬件资源消耗过大。

改进的Booth算法将24位定点乘法运算的部分积由24个压缩至13个,降低硬件开销,减少流水线级数。利用改进的Booth算法设计一种华莱士树形结构[6],如图4所示。

用3级4∶2压缩器[7]将13个部分积逐级压缩到2个,级间插入寄存器实现全流水,压缩后的2个部分积用快数加法器相加得到最终结果。4∶2压缩器的逻辑结构见图5,由4∶2压缩单元级联组成。

对并行的全加器进行逻辑化简可以得到4∶2压缩单元,其逻辑表达式如下:

undefined

利用改进后的结构设计的定点乘法器流水线深度只有7级,降低了硬件成本,减小了流水线的初始延时,提高了系统的性能。

1.4 浮点乘法器的改进

分析4∶2压缩器的逻辑表达式,可以发现当输入的a1,a2,a3,a4相同的时候,输出的Cout相同;当输入的a1,a2,a3,a4以及Cin相同时,输出的S和C都相同。

再分析Booth算法。Booth编码是针对有符号数的乘法,需要将符号位扩展并且移位;2个24 bit定点数相乘,得到1个48 bit的乘积, 因此产生的部分积有2 bit～24 bit 不等的相同符号位。

在华莱士树形结构中,Booth 算法得到的13个48 bit的部分积相加,只需要将其中的25 bit相加,其他23 bit可以通过分析直接得到和位和进位。每个乘法器节省了70个4∶2压缩器,减少了关键路径时间,提高了乘法器的执行速度。

1.5 浮点加法器设计

浮点加法器包括数据预处理电路、26 bit加法器以及浮点数格式化处理,采用流水线技术,见图6。

浮点加法的处理步骤如下:

a)数据预处理部分,包括判零电路,如果其中一个加数为0,那么加法输出结果应该等于另一个加数;指数对齐;尾数移位实现尾数补齐和隐藏位“1”扩展以及符号位扩展。

b)运用进位保留和进位传递相结合的26 bit加法器。

c)将最终结果再格式化为IEEE 754标准单精度浮点格式。

26 bit定点加法器是浮点加法器的核心加法单元[8],本设计采用了超前进位和进位保留相结合的方法,见图7。超前进位加法器的特点是各级进位信号同时产生,大大减少了进位产生的时间,一般不超过4 bit,故将26 bit分成6个3 bit块和2个4 bit块。其中,AF_3、AF_4采用超前进位加法器,26 bit进位选择加法器仅用2级流水线就能达到所需性能要求。

1.6 浮点加法器的改进

在满足时序的情况下,分析26 bit快速加法器。超前进位加法器适用于不超过4 bit的数据,进位保留加法器是以面积换速度。如果采用两级流水线完成26 bit加法器,时序上一定满足,但是却以24个AF_3和8个AF_4为代价。基于面积和时序的折衷优化,我们采用以下框图完成26 bit加法器。只需要12个AF_3和4个AF_4即可完成26 bit进位选择加法器。

2 逻辑综合

在蝶形运算单元结构完成之后,采用Verilog HDL对整个系统进行了RTL级描述和逻辑综合及功能验证。本文基于TSMC 0.18 μm CMOS标准单元库,使用Synopsys的Design Compiler进行逻辑综合,使用Modsim进行仿真,并且与MATLAB计算结果进行对比。

2.1 逻辑综合

设计目标为200 MHz时钟,设定20%裕量,因此约束时钟为4 ns,具体约束条件如下:时钟周期4 ns,时间抖动和歪斜0.1 ns,线负载模型tsmc18_wl120,输入输出延时0.8 ns,满足时序的情况下面积最小化。

综合完成后结果如图8所示。

蝶形运算单元逻辑综合报告显示关键路径延时3.4 ns<4 ns,所以slack为正。总单元面积1.12 mm2,总的动态功耗为376.9 mW。

2.2 系统仿真

使用MATLAB产生测试向量,仿真波形见图9。

表2显示了与MATLAB运算结果的比较,本设计仿真结果正确且精度较高。

3 版图综合

将蝶形运算单元作为一个IP核进行版图设计,因而没有加入焊盘,这样方便整个FFT处理器的调用。逻辑综合产生的网表和SDC文件导入到ASTRO软件对系统进行布局布线,得到如图10所示的版图。

版图综合得到的最终报告如表3所示。

4 结束语

本文采用时序控制的流水线技术和并行结构相结合的方法设计的基-4 FFT蝶形运算单元使用TSMC0.18 μm CMOS标准单元库,能稳定工作在200 MHz的时钟频率。采用改进的基-4 FFT蝶形结构图,将乘法器节省75%,加法器节省72.7%;采用改进的浮点乘法器和浮点加法器,使蝶形运算单元的面积节省了1.64万门。

此蝶形运算单元在满足200 MHz的前提下,面积和功耗得到很大改善。对于N点FFT需要log 4N级、每级N/4次蝶形运算,假设每级数据需要10点预存,数据输入输出需要1 024×2个时钟,完成1 024点运算的时间为[(1 024/4+10)×log 41024+1 024×2]×5 ns=16.89 ns。用本文设计的蝶形单元设计FFT与其他FFT性能比较见表4所示。

可见,使用该蝶形运算单元构成FFT处理器在性能上处于领先地位。本设计完全满足高速度、高精度条件下FFT专用处理芯片的设计需要,可以广泛应用于各类高速信号处理系统。

参考文献

[1]胡广书.数字信号处理[M].北京:清华大学出版社,2005.

[2]王志功,朱恩.VLSI设计[M].北京:电子工业出版社,2005.

[3]荣瑜,朱恩.一种高性能FFT蝶形运算单元的设计[J].东南大学学报:自然科学版,2007,37(4):565-568.

[4]唐江,刘桥.基于FPGA的基-4FFT算法的硬件实现[J].重庆工学院学报,2007,21(5):82-84.

[5]伍万棱,邵杰.FPGA实现的基4FFT处理器高效排列算法研究[J].南京航空航天大学学报,2005,37(2):222-226.

[6]LEE Hyun-Yong,PARK In-Cheol.Balanced binary-tree de-composition for area-efficient pipelined FFT processing[J].IEEE Transactions on Circuits and Systems,2007,54(4):889-900.

[7]HSIAO Shen Fu,JIANG Ming Roun,YEH Jia Sien.Design of high-speed low power3-2Counter and4-2Compressor for fast multiplier[J].Electronics Letters,1998,34(4):341-344.

【蝶形算法】推荐阅读：

遗传算法算法01-07

算法及算法评价09-30

扩展算法07-16

区间算法07-18

搜索算法07-19

解析算法10-14

组合算法10-20

计算算法01-13