TS201处理器(精选4篇)
TS201处理器 篇1
0 引言
近年来,国内外雷达技术研究进展迅猛,对雷达信号处理器的处理能力、存储能力、可扩展性、软件开发以及数据传输与互联能力等各个方面都提出了更高要求。超高处理能力、突出的数据交互能力、良好的通用性和可扩展性已成为现代雷达信号处理机的特点。数字信号处理(DSP)芯片具有处理能力强、应用灵活的特点,常作为雷达信号处理机的核心处理器。
ADSP-TS201器件是通用信号处理平台设计使用的DSP器件,在雷达信号处理、数字图像处理等领域中有广泛的使用。文章介绍了基于TS201 芯片的雷达信号处理器的工作原理和其测试方法,该测试方法通过对可编程器件管脚信号分析和数据位的检测来对信号数据处理器进行常规测试和故障定位,能快速有效地定位到故障器件和故障管脚,有较强的实用性和工程指导意义。
1 基于TS201芯片的雷达信号处理器的工作原理
ADSP-TS201芯片是ADI公司推出的一款高性能浮点数字信号处理器,最高工作主频600MHz(1.67ns的指令周期),支持浮点格式的32数据和40位扩展精度浮点格式,支持8位、16位、32位和64位的定点数据格式,32位的地址总线提供4G的统一寻址空间,14通道的控制器支持硬件和软件中断,支持优先级中断和嵌套中断.4个收发全双工链路口支持最高速度500字,每个链路口都由4位双向差分数据线和3个控制信号线组成,在数据通信过程中,在链路口时钟的上升沿和下降沿对数据进行锁存和驱动(即双倍数据速率),其工作时钟在软件上是可控的,可配置为1/1、1/1.5、1/2和1/4核时钟,ADSP-TS201链路口通常以4位并行方式传输,也可以编码为1位传输方式。JTAG仿真接口允许多片仿真[1],TS201的这些性能满足了雷达数字信号处理系统实时性和通用性的要求。器件内部结构框图如图1所示。
雷达信号处理器主要完成雷达回波信号的脉冲压缩、动目标检测(MTD)、跟踪和测角、测距、测速等功能[2]。信号处理器模块由4片ADSP-TS201SWBP-050主处理器[3]、多片SDRAM存储器、1片XC2VP50的现场可编程门阵列(FPGA)芯片、1片在线编程6个品种电源供给电路以及与信号处理主控板通信的全局总线(GBUS)、与信号处理从板通信的数据总线(OBUS)、与中频信号通信的内总线(IBUS)组成。每片TS201(芯片)外扩了32MB、64bits的同步动态随机存取内存(SDRAM)。TS201之间通过链路端口(LinkPort)二二互连,另有1对LinkPort可以通过FPGA转化成高速串行信号。主片TS201 从闪存(Flash)中加载程序,并通过LinkPort实现另3 片TS201芯片的程序加载。该通用信号处理模块采用XC2VP50内嵌的Rocket IO实现模块间的高速串行互连。XC2VP50共有8个全双工的Rocket IO,单向波特率可达3.125GB/s,可支持2条链的通道捆绑。具有40 位可重定义的TTL或LVTTL接口,其系统框图如图2所示。
2 雷达信号处理器的测试方法的设计和实现
信号数据处理单元[4]是雷达的一个重要组成部分。信号数据处理器是信号数据处理单元中的一个核心组成部分,一旦信号数据处理器报故,信号数据处理单元将处于死机状态,从而整个雷达将无法正常工作,怎样快速全面测试信号数据处理器的性能和准确定位其故障原因,是缩短雷达调试周期[5]的一个重要环节,因此,一个完善有效的测试方法就显得尤为必要。
在实际工作中,根据信号处理器[6]的系统框图和工作原理,基于TS201的仿真界面采用C语言设计和编写了雷达信号处理器的测试方法。该方法由几个功能不同的子程序组成,主要包括双运算模块测试,与FPGA的接口测试、链路口测试、存储器(SDRAM和SRAM)测试,总线(GBUS和IBUS)测试、Flash加载测试等。现以总线接口和数据存储器测试这两个比较典型的子程序的设计和实现来对信号数据处理器进行测试和故障定位来加以介绍:
(1)总线接口(包括G_BUS和I_BUS)测试方法的设计和实现
总线接口的测试包括在总线上进行读、写双向测试,可根据信号流向及所经过芯片的的管脚信号分析和数据位检测,编写子程序,通过控制字(如WRITE_ONLY)的值来选择判定当前的测试内容,具体实现是通过DSP仿真器将测试数据写入DSP芯片,经过LinkPort,G_BUS(或I_BUS)总线,在目的地址上通过仿真界面将数据读出,然后通过对比写入与读出的数据一致性,来判断总线接口的功能,如果一致,证明总线功能正常;如果不一致,测试程序将做进一步的分析判断处理,通过进一步的运行相关测试程序,结果将输出与输入不一致的数据位所在相关芯片的具体位号和相关芯片的管脚号。总线接口测试框图如图3所示。
(2)数据存储器测试方法的设计和实现(以SDRAM测试流程为例)
信号处理器中的DSP为实现与SDRAM的通信提供了专用的接口控制器和寻址空间,以访问控制SDRAM。SDRAM的片选由FPGA来控制,其他的控制信号(时钟信号除外)直接与TS201DSP相连,时钟信号也经由FPGA处理,然后经由时钟驱动得到。通过仿真器将特定的数据写入DSP的数据端,在仿真界面通过存储器(memory)进行寻址并将初始和目的地的数据显示在特定的地址上,通过比对数据的一致性,判断芯片是否工作正常。也可以在DSP端写入特定的数据,如交替发送0X5555AAAA和0XAAAA5555这样的数据,在单板芯片的输出端用示波器观察是否是方波,来判断数据位的芯片是否存在虚焊和脱焊。SDRAM测试流程图如图4所示。
通过编写不同功能的子程序组成的测试软件,来完成信号数据处理器的测试方法的设计和实现,解决了以往检查高集成度电路困难的问题,并且自主编写的测试软件既可以完成雷达信号数据处理器的常规性能检测,又可快速有效地定位到故障器件和故障管脚,为调试高集成度电路板提供了极大帮助,突破了以往的调试难点。经过实际调试和使用验证,证明此方法切实可行,使信号数据处理器在调试中故障定位更加明确,大大缩短了调试时间,提高了调试效率,为后续信号数据处理器的调试和维修提供了方便。其测试平台主要由TS201仿真器、计算机(PC)组成,通过仿真器进行数据的读写,然后根据软件测试将结果显示在电脑界面上,清晰简单明了。其测试平台如图5所示。
3 实际案例分析
现以雷达信号数据处理器的实际使用情况来举例说明。某一信号处理器在处理单元的联调过程中出现故障,随后将该信号处理器放在测试平台上,上电加载运行处理器的测试程序,发现在执行SDRAM测试过程中报警,并给出了与故障相关联的故障芯片及故障管脚,该测试程序运行后的输出结果如图6所示。
图6显示的故障信息很明确,给出了可能引起该故障现象的相关信息,由此测试人员可以首先重点查看与SDRAM相关的位号为D24和D56芯片的相关管脚,为故障定位提高了准确度,为故障排查指明了方向,避免了出现问题后无从下手的局面,同时减少了查阅图纸和故障分析的过程,可大大缩短排故的周期。
4 结束语
文章通过使用基于TS201芯片的雷达信号处理板的测试方法,在调试初期就能快速测试信号数据板的性能和定位典型故障原因,缩短了信号处理器模块的调试周期,提高了调试效率。在目前的使用过程中,加快了调试和排故周期。大大缩短雷达的调试周期和减少人员的使用,尤其是快速定位方法,大大提高了故障定位的效率和准确度。
TS201处理器 篇2
在宽带系统中, 由于各种条件的制约, 不可避免地存在系统失真。这些失真的存在, 造成脉压旁瓣的升高和主瓣的展宽, 从而降低距离分辨率, 影响目标一维距离像的成像质量。另外, 调频非线性的存在, 使得目标处于不同距离时失真影响的严重程度不一样, 是移变失真, 给系统补偿带来困难。同时, 由于带宽比较宽, 数据量大, 造成一维像补偿运算时间长。为了保证系统误差补偿的实时性, 具有高速运算能力、可时分复用、并行处理、数据吞吐高等特点的处理器是必不可少的。本文主要讨论基于ADSP-TS201芯片设计的一种通用雷达信号处理模块的系统误差补偿方法。
1 雷达通用模块[1]
基于ADSP-TS201系列高性能浮点数字信号处理器和Xilinx公司VIRTEX II Pro系列的FPGA (XC2VP70) 以及大容量的SDRAM开发的雷达通用处理模块 (参见图1雷达通用处理模块结构互联图和图2实物图) 具有强大的并行处理能力, 超大的存储容量, 可编程能力强, 能完成数字脉压、误差补偿等处理功能。
本雷达通用处理模块的主要特点如下:
a) 本雷达模块基于CPCI总线, 采用4片超高性能、静态超标量体系结构的通用DSP芯片ADSP-TS201;
b) 每片DSP有4Mb的内存, 512 MB的外存;
c) 主频600 MHz, 指令周期1.67 ns, 采用32位浮
点算法完成1024点基2复数FFT运算仅需要15.7 μs;
d) 每个ADSP-TS201S提供了4条链路口可实现两两灵活互联联通, 具有较高的数据传输率, 可完成多处理器高效并行运算;
e) 采用超级哈佛结构, 静态超标量操作适合多处理器模式运算, 可直接构成分布式并行系统和共享存储式并行系统;
f) 14通道的DMA控制器支持硬件和软件中断, 支持优先级中断和嵌套中断;
g) 4个全双工LINK端口支持最达500 MB/s的传输速度;
h) JTAG仿真接口允许多片DSP仿真。
2 系统误差补偿原理[3,4,5]
在很多宽带雷达中, 由于信号带宽很宽, 用直接脉冲压缩的办法很困难, 所以常采用对LFM信号进行去斜处理的方法获得目标的一维距离像。由去斜原理可知, 理想的本振信号和理想的点目标信号混频后的输出信号幅度为常数, 相位为时间的线性函数。设实际得到的信号可表示为
式中:I (n) 、Q (n) 分别为I、Q两路正交数字信号;a (n) 和φ (n) 为n的函数即为时间的函数。
若系统无失真, a (n) 为与n无关的恒值, φ (n) 为n的线性函数, φ (n) 具有如下形式
实际系统中, a (n) 与n有关 , φ (n) 一般不是n的线性函数, 但是我们可以通过a (n) 和φ (n) 估值得到
这样, 就可以求出每一点的幅度误差
相位误差
系统误差存在移变性, 为了获得满意的脉压旁瓣, 只有一组补偿误差是不够的。此时可采用把距离波门依照满足系统指标要求的补偿间隔分成若干段, 每一段内的目标用同一组误差来补偿。系统误差补偿原理框图如图3所示。
3 工程实现
通用雷达处理模块的A片主要用来宽带IQ数据缓存并和宏指令打包, 打包方式按照雷达重复周期PRT进行。每一周期IQ数据接收完成后, 通过A片LINK1发送到B片;B片主要用来存储补偿函数、距离估计和补偿运算;补偿后的IQ数据通过B片的LINK1发送至C片;C片主要进行FFT运算, 输出即为距离一维像。系统误差补偿在雷达通用处理模块上的功能分配见图4。
图5为在某雷达上录取的4组不同距离的点目标回波数据, 做TS201C片FFT处理后形成的点目标一维像。由图5的4组数据可以看出, 点目标一维距离像的系统旁瓣约为-9 dB, 并且主瓣展宽, 距离分辨降低。在宽带雷达系统中, 系统失真的存在对一维距离像的旁瓣的抬高和距离分辨的降低的影响还是相当明显的, 由于系统失真的影响, 已不能满足系统指标的要求 (本雷达系统指标要求主副比不小于30 dB) , 进行系统误差的补偿是必要的。
为了验证宽带雷达中系统误差的移变性同时说明系统误差补偿分段的必要性, 在TS201B片中, 程序固定选择同一组补偿函数补偿不同距离的目标, TS201C片输出的一维距离像如图6所示。图6 (a) 为用图5中 (a) 组数据提取的系统误差补偿图5 (c) 组数据后的一维距离像, 图6 (b) 为用图5中 (a) 组数据提取的系统误差补偿图5 (d) 组数据后的一维距离像。
由图6可以看出, 固定的选择一组补偿函数, 随着目标距离的增大, 补偿后目标一维距离像的效果越差。所以, 系统误差具有移变性, 对于不同距离的目标, 应该采用不同的补偿函数。
图7为根据距离选择补偿函数补偿的效果图, 具体为图7 (a) 为图5 (a) 组数据提取的系统误差补偿图5 (b) 后的一维距离像, 图7 (b) 为图5 (c) 组数据提取的系统误差补偿图5 (d) 后的一维距离像。由图中可看出, 经过对系统误差的距离分段补偿处理后, 一维距离像的旁瓣在30 dB以下, 满足系统指标要求。
4 结束语
本文介绍了基于ADSP-TS201的雷达通用处理模块以及在此模块上宽带系统误差补偿的实现方法。并结合了某雷达实际回波数据, 验证了在雷达通用模块上系统误差补偿的方法, 取得了一维距离像的良好效果, 在某宽带雷达中得到了一定的应用。
摘要:在宽带雷达中, 常采用去斜方法进行脉冲压缩来获得目标一维距离像, 由于多种系统误差存在, 使得脉冲压缩后的压缩脉冲旁瓣升高, 主瓣展宽, 影响了成像质量。因此, 要获得满意的一维像需要对这些误差进行补偿。本文介绍了以AD I公司的新一代高性能TigerSHARC处理器ADSP-TS201为核心处理器, 结合X ilinx公司VIRTEX-IIPRO系列FPGA芯片设计的4片ADSP-TS201雷达通用模块, 给出了基于此模块的工程可实现的系统误差补偿方法, 结合某宽带雷达的实际数据, 验证了此方法的工程可实现性, 工程上取得了明显效果, 并在某雷达中取得了一定应用。
关键词:雷达通用处理模块,宽带雷达,系统误差
参考文献
[1]Analog Device.ADSP-TS201S TigerSHARC Processor Hard-ware Reference[M].2004.
[2]曹志道, 许荣庆, 孟宪德, 等.ISAR系统失真、调频非线性和补偿技术[C]//逆合成孔径雷达文集, 1996:153-157.
[3]陆林根.宽带线性调频信号时频处理研究[J].现代雷达, 2002, 9 (5) :37-38.
[4]张贤达.现代信号处理[M].2版.北京:清华大学出版社, 2002:56-58.
TS201处理器 篇3
图像匹配指在已知目标基准图的子图集合中,寻找与实时图像最相似的子图,以达到目标识别与定位目的的图像处理技术[1]。由于归一化互相关算法的实现方案简单[2],对灰度值的线性变化具有适应性、抗白噪声能力强,以及匹配性能稳定的特点,已成为图像匹配技术中应用最为广泛的匹配算法[3,4]。该算法不仅可以应用于民用图像处理技术领域,也可以应用于SAR成像和红外成像制导系统等军事领域当中。虽然归一化互相关算法的匹配能力强,性能稳定,但该算法的计算量较大,不易应用于实时系统当中[5,6]。针对这一现象,讨论了一种基于ADSP-TS201处理器,在保证全图遍历条件下,使用递推与多模板思想构建的归一化互相关快速算法。实验证实,该快速算法在保证算法性能的同时,有效地提高了算法的执行效率。
1 归一化互相关算法实现过程分析
归一化互相关算法是基于灰度图像匹配技术中最为经典的算法,具有抗白噪声能力强,匹配准确性高的突出特点,但该算法的计算量较大,严重影响了算法应用的实时性。
设F(x,y)为一幅M×N的基准图像,B(x,y)是一幅m×n的实时图像,Sx,y是一幅与实时图像做互相关运算的匹配子图,且m<M,n<N。
标准归一化互相关算法计算公式[7]如下:
式中:
观察上述公式可知,对应数据的减法运算、乘法运算和累加运算占据了标准算法中绝大部分的计算量。针对TS201处理器,可以借助其宽总线、大内存及并行指令的特点实现图像数据的高速存取和并发计算,提升标准算法的执行效率,但该处理器仅支持32位取值,计算单元不支持8位数据乘法[8]的特性,也给提升标准算法的执行效率带来了一定的限制。实验发现,导致TS201执行归一化互相关算法效率下降的主要原因有两个:一个是标准算法本身计算量庞大;另一个是处理器32位取值的特性使匹配子图数据的获取困难。
2 递推多模板方案快速算法
2.1 递推方案
递推多模板方案快速算法首先要解决的问题就是归一化互相关算法本身计算量庞大的问题。观察式(1)可知,式(2)为匹配子图与实时图协方差计算过程,式(3)为匹配子图方差的计算过程,式(4)为实时图的方差计算过程。对于实时图的方差计算部分,在整个匹配过程中只需要计算一次,而对于匹配子图的方差计算和两张图像的协方差计算则需要多次重复执行[9],共需要约(M-m)×(N-n)×3×m×n次加乘计算,计算量庞大。本文采用匹配子图递推方案来减少计算量。
结合实际图像,最大互相关算法实际是将实时图在匹配基准图像上做逐点逐行平移,并与其覆盖的匹配子图做相关运算,求取相关系数并比对,以获取最佳匹配位置。在实时图平移的过程中,其覆盖的新匹配子图数据遵循如下递推原则:
(1) 当实时图进行水平平行移动时,因Sx,y+1是Sx,y在基准图中右移1列的位置所对应的新匹配子图,即Sx,y+1的前n-1列是Sx,y的后n-1列,有:
(2) 当实时图进行垂直平行移动时,因Sx+1,y是Sx,y在基准图中下移1行的位置所对应的新匹配子图,即Sx+1,y的前m-1行是Sx,y的后m-1行,有:
利用此递推原则,可以将归一化互相关式中的式(3)进行简化。观察式(3)中数据计算结果是以各个数据平方和的累加形式出现的,所以先将式(5)和式(6)进行平方运算,得到对应的式(7)和式(8)。
使用式(7)和式(8)对式(3)进行变换,得到全图遍历过程中使用的匹配子图递推方差计算:
在全图遍历的过程中,式(9)每次需要得到的计算结果只是在上次累加结果的基础上,减去移出数据的累加值和增加移入数据的累加值,中间重复数据的累加结果不再重复计算,从而减少了计算量。匹配子图递推方案将会使单次子图方差计算的计算量由2×m×n次加乘减少至2×m或者2×n次加乘。
2.2 多模板方案
递推多模板方案的快速算法需要解决的另一个重要问题是匹配子图的数据准备问题。有两个不利因素导致产生此问题,一个是匹配子图数据准备过程重复进行(M-m)×(N-n)次[10],占据了大量处理时钟;另一个由式(2)的分析可知,算法运行过程中,每次相关匹配运算需要将实时图数据块与匹配子图数据块中的像素一一对应进行乘法运算。由于TS201自身只支持32位取值(字取值),所以无法将直接获取数据的方法获得的起始像素不位于字首的匹配子图数据块用于计算,也即不能利用DMA使用双缓冲的常规方式准备数据。
本文采用多模板计算方案来解决匹配子图数据的准备问题。
多模板计算方案首先将处理器定位于4字取值工作模式,加载并行指令,使处理器的计算能力最大化;其次将实时图予以适当的横向放大,构建多个与匹配子图等高的大实时图块,并分别在大实时图块范围内将真实实时图像数据进行逐点平移,与预匹配子图像素相对应,非真实实时图像素位置零,如图1、图2所示。
以图2为例,上半部分图像为构建的大实时图块,大实时图块中连续像素“4”点集为起始像素不位于字位上的真实模板图像;下半部分图像为大实时图块对应的大匹配子图,大匹配子图中连续像素“4”点集为真实实时图对应的起始像素不位于字位上的真实匹配子图。将这两个扩大后的数据块各个像素对应相乘并累加,其结果即为真实实时图与真实匹配子图对应像素的乘累加结果。这样做不仅建立了两个图像数据块各个像素间的对应相乘关系,而且也解决了起始像素不位于字位数据块的数据获取问题。
构建的这些大实时图块可直接与基准图像上对应的放大子图进行相关计算,省去匹配子图数据的重复准备过程,以适当增加计算量的方式消去了多次重复数据准备占用的处理周期。配合4字处理工作模式,只需在算法运行的初期一次性地构建16个(m+16)×n的大实时图块,即可与全部匹配子图进行相关运算,而原有的匹配子图数据准备模式则需要构建(M-m)×(N-n)个m×n像素的图像块。
3 实验结果
对使用汇编语言和递推多模板方案构建的归一化互相关快速算法进行测试。输入由红外图像拉伸而来的128×128像素的8位基准图像和64×64像素的实时图像,如图3所示。
使用TS201处理器的运行快速算法,可以精确获得实时图像匹配坐标,运算时间统计结果见表1。
4 结 语
结合ADSP-TS201处理器特性,构建了递推多模板最大互相关快速算法。实验证明,该快速算法较常规算法的执行时间明显缩短,执行效率提升较高。
摘要:归一化互相关算法因其图像匹配稳定性高的特点被广泛应用于SAR成像和红外成像的制导系统中。为增强其应用的实时性,讨论一种基于TS201处理器,在保证全图遍历条件下,结合处理器的自身特性,采用递推与多模板思想构建的归一化互相关快速算法。实验证明,该执行效率常规算法的实现方案有了很大提高,可以实现低对比度条件下的目标精确匹配。
关键词:ADSP-TS201,归一化互相关,递推与多模板方法,目标精确匹配
参考文献
[1]刘莹,曹剑中.基于灰度相关的图像匹配算法的改进[J].应用光学,2007,28(5):536-540.
[2]李卓,丘淑娟.基于相关系数的快速图像匹配研究[J].北京理工大学学报,2007,27(11):998-1000.
[3]刘红侠,杨靓,黄巾,等.快速图像匹配相关系数算法及实现[J].微电子学与计算机,2007,24(2):32-35.
[4]曹炬,马杰,谭毅华,等.基于像素抽样的快速互相关图像匹配算法[J].宇航学报,2004,25(3):173-178.
[5]杜杰.两种基于灰度的快速图像匹配算法[D].大连:大连海事大学,2007.
[6]张红源,陈自立.图像匹配经典算法及其改进方法研究[J].软件开发与应用,2008,27(9):91-94.
[7]董安国.图像匹配最大互相关快速算法[J].浙江万里学院学报,2005,18(4):13-15.
[8]刘书明,罗勇江.ADSP TS20XS系列DSP原理与应用设计[M].北京:电子工业出版社,2004.
[9]韩先锋,李俊山,孙满囤,等.巡航导弹景象匹配算法适应性研究[J].微电子学与计算机,2005,22(7):53-57.
TS201处理器 篇4
在宽带雷达信号处理中,存在诸如回波采样率高、脉冲压缩(匹配滤波)运算量大、处理流程复杂、实时高分辨目标检测困难等一系列问题[1]。针对这些问题,采用通用计算机平台难以应对运算量大和实时性等高要求,因此,需采用专用的数字信号处理器(DSP)来进行高速运算。尽管当前的数字信号处理器已达到较高水平,但单片DSP芯片的处理能力还是不能满足宽带雷达的性能要求,需要引入并行处理技术,在本设计中使用4片DSP芯片组成并行处理系统。另外,为充分发挥DSP芯片在复杂算法处理上的优势及FPGA在大数据量的底层算法上的优势,设计了一种基于FPGA控制的多DSP并行处理系统。
1 系统设计
基于FPGA控制的多DSP并行处理系统的原理图如图1所示。
整个雷达信号处理系统以高可靠性CPCI工控机为平台,内置不同功能的信号处理板。板间的数据传输通过CPCI接口完成。根据雷达信号处理系统的任务分配,本系统负责完成中频数字信号的处理。根据前端信号采集板输出数据的不同,数据将以串行或并行的方式输送到本系统中。其中,串行信号通过CPCI的J3口以差分的形式直接传输给DSP2,然后在4片DSP芯片间按照预定的算法进行任务分配和并行处理,处理完毕后通过DSP4写入两片扩展连接成32输出方式的FIFO中,此时,FPGA直接从FIFO中读取数据,完成与CPCI接口芯片PCI9656的时序转换后将数据发送到PCI9656,通过CPCI总线经J1和J2口传输到雷达系统的其他功能模块。对于并行信号而言,32位带宽的信号首先通过J3口发送到FPGA内部寄存器中FPGA接收到数据后将数据写入输入缓存区,并在完成一帧后给并行DSP输出中断。当并行DSP采样到中断后,从数据缓存区读取数据,完成处理后,将数据传输到缓存区,FPGA再通过相同的处理方式经CPCI接口的J1口和J2口将数据传输到雷达系统的其他功能模块。
2 DSP芯片选型
根据系统的性能要求,通过比较各种高性能DSP处理器,并着重对构成并行处理系统的性能和便捷性进行分析,确定选用AD公司的ADSP TigerSHARC系列处理器中的TS201S组成多DSP并行系统。因为该系列的处理器在构成并行处理系统时其本身就提供了实现互连所需的片内总线仲裁控制和特有的链路口,可以以各种拓扑结构互连DSP,满足大运算量和片间通信灵活的要求。此外,选用ADSP TigerSHARC还可以降低外围设计的复杂度,增强系统的稳定性。
TS201S 芯片(600 MHz) 主要性能指标[2]:
(1) 运行速度:1.67 ns指令周期;每周期可执行4条指令;
(2) DSP内部有2个运算模块,支持的运算类型有:32 b和40 b浮点运算;8 b,16 b,32 b以及64 b定点运算;
(3) 每秒可执行12×109次16 b定点运算或3.6×109次浮点运算;
(4) 采用单指令多数据(SIMD)模式,每秒可提供4.8×109次的40 b乘加运算;
(5) 外部总线DMA传输速率1.2 GB/s(双向);
(6) 4个链路口,每个链路口最高提供1.2 GB/s的传输速率,可同时进行DMA传输;
(7) 多处理器处理能力,具有支持多处理器无缝连接的片内仲裁逻辑,多处理器采用统一寻址的方式访问,可以通过簇总线(Cluster Bus)或链路口(Link Ports)方便地构成多处理器系统。
(8) 片上SDRAM控制器,片上DMA控制器( 提供14条DMA通道)。
3 DSP并行处理结构设计
ADSP-TS201S之间的数据传输通道可选择的方式有如下两种:高速链路口(LINK)方式和高速外部总线口(簇总线)。因此,由多ADSP-TS201S组成的DSP并行处理系统从数据传输方式来看,不外乎有以下三种模型:高速链路口(LINK)耦合模型;高速外部总线口(簇总线)耦合模型;高速链路口(LINK)与高速外部总线口(簇总线)混合耦合模型[3]。
3.1 基于链路口的多DSP并行处理系统
在这种连接方式下,各DSP用LINK口连接在一起,进行通信控制和数据交换,系统结构简单、连线少、可扩展性强,在DSP具有多个LINK口的情况下,可灵活组成线型、星型、环型、网络型或超立方体型等多种拓扑结构[4]。ADSP-TS201S具有4个全双工的链路口通信端口。一个链路口单向通信包含4位数据加上时钟与握手信号一共12条引线,双向共要24条引线。在内核时钟为600 MHz时,单向数据传输率最高可达600 MB/s,双向数据传输率可达1.2 GB/s,由于链路口通信是点对点的,所以具有很高的传输可靠性,但在传输数据时的共享性不如总线形式[3]。
3.2 基于共享总线的多DSP并行处理系统
共享总线就是系统中所有DSP的外部总线(地址、数据和访问控制总线)都直接连接在一起,各DSP片内存储器和寄存器以及挂接在总线上的外部存储器、外设都作为共享资源被各个DSP访问。ADSP-TS201S的外部总线为32 b,数据总线可以配置成32 b或者64 b。外部端口的运行速度最高可以到125 MHz,数据吞吐量可以高达1 GB/s。为了与不同外部设备连接,ADSP-TS201S外部端口支持快速(流水线)、慢速和SDRAM协议。且支持以DMA方式进行数据传输。另外,ADSP-TS201S并行总线的最大特点是它具有无缝连接能力,无论是与SRAM、SDRAM、还是与处理器连接,只需要将相应管脚对应连接就能简单方便的构成一个最多由8个DSP构成的多处理器系统,充分共享8个DSP的内部资源和外部的EPROM,SRAM,SDRAM等资源[3]。
3.3 基于外部总线共享和链路口混合耦合的多DSP并行处理系统
为兼顾数据速率、资源共享、易于控制以及DSP之间通信灵活等方面,在本设计中采用混合耦合模型的并行处理系统。将4个ADSP TS201S的总线口都相互连接好,各DSP的高速链路口也都相连,建立DSP到DSP的点对点通道与DSP间资源共享的工作块模式。4片SDRAM中,每两片扩展连接成64位,挂接到64位数据总线上,2片FLASH也通过总线访问。控制总线连接到FPGA,由FPGA统一控制4片DSP之间以及DSP与外部存储器之间的数据传输。4片DSP的工作块连接方式如图2所示。
4 FPGA与外设接口设计
4.1 FPGA选型
现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)是在专用ASIC的基础上发展而来的,它克服了专用ASIC不够灵活的缺点。其内部的具体逻辑功能可以根据需要配置,对电路的修改和维护很方便。目前,FPGA的容量已经跨过了百万门级,使得FPGA成为解决系统级设计的重要选择方案之一[5]。现在FPGA已经成为多种数字信号处理应用的强有力的解决方案。由于可编程方案的灵活性,DSP系统设计可以适应日益变化的标准、协议和性能需求。Virtex-5系列是当前市场上最新,功能最强大的FPGA,它采用65 nm芯片制造工艺,具有先进的高性能和理想应用的FPGA结构。主要性能指标如下:
(1) 强大的时钟管理能力;
(2) 片上集成高达36 Kb的块RAM和FIFO存储器资源;
(3) 高性能并行Select I/O技术和先进的DSP48E slice;
(4) 灵活地加载和配置方案以及在所有设备上的系统监测能力;
(5) 集成100 Mb/s~3.75 Gb/s的Rocket I/O GTP收发器,150 Mb/s~6.5 Gb/s的Rocket I/O GTX收发器;
(6) 强大的片上微处理器PowerPC440。
综合处理板功能需求,性能分析、系统兼容以及I/O管脚需求等各因素,FPGA选择Xilinx公司的Virtex-5系列XC5VSX50TFF1136芯片。
4.2 FPGA设计
根据系统功能要求,FPGA的任务主要分为4大部分。
(1) 控制数据在系统中的传输逻辑
在设计时,将图2控制总线中的所有信号都连接到FPGA中,由FPGA来统一调度数据在DSP之间以及DSP与外部存储器之间的传输。这样为任务并行处理的分配和雷达信号流水线式的处理在处理算法上提供了最大程度的简便,并能充分发挥DSP处理复杂算法的运算能力。
(2) 控制数据缓存区(FIFO)的数据写入与读取,通过外部中断IRQ控制DSP与FPGA之间的数据传输
由于外部4片FIFO每两片扩展接成32位输出/输入方式,因此FPGA与FIFO进行数据传输时采用单向数据传输方式。在单向数据传输时采用数据块方式传输,通过将握手信号连接到DSP的IRQx来产生中断或者FLAGx,FPGA将从外部处理板接收到的数据写入输入缓存区,并在完成一帧后给并行DSP输出中断,DSP从FIFO读取完一帧数据后通过握手信号向FPGA告知可以进行下一帧数据的传送。
(3) 控制通过LINK口与DSP之间的通信
链路口通信有自己的通信协议,FPGA电路只需要按照链路口的通信协议进行设计。ADSP-TS201S的链路口采用的是独立的发送和接收通道,因此对应的FPGA也采用不同的接收电路和发送电路。FPGA接收或者发送DSP链路口逻辑电路都主要由两部分组成:接收/发送模块和接收缓冲/发送缓冲。接收模块用来与DSP链路口发送通道进行接口和数据拆包处理,发送模块用来与DSP链路口接收通道进行连接和数据打包处理;接收缓冲/发送缓冲分别是用来配合接收模块和发送模块进行传输时作为数据缓冲区,并实现与系统中其他接口或者FPGA中的其他模块的接口的数据传输功能[3,6]。
(4) 控制CPCI接口模块与CPCI总线间的数据传输
CPCI接口模块由PCI9656组成,在FPGA中划定一个独立的功能模块作为实现CPCI总线协议的接口控制器。该控制器主要包含一个FIFO控制逻辑,完成本地板卡与CPCI总线之间的数据传输。主要完成以下功能:与PCI9656配合实现CPCI总线对目标设备的读和写、缓冲CPCI总线与FIFO之间传送的数据、控制FIFO的读写。本地读写CPCI总线只需对FIFO进行读写操作即可[7]。
4.3 CPCI传输接口设计
为了保证本系统与后面板上其他处理系统的数据传输速率和效率,在设计中采用PCI9656作为CPCI接口芯片。PCI9656作为专门的I/O加速器,支持CPCI格式传输,数据传输时钟主频最高为66 MHz,数据传输带宽为64 b。其峰值传输速率可达528 MB/s,通过系统框图可以看到,在设计中使用了CPCI的J1,J2,J3,J4 四个接口,根据CPCI传输协议,J1和J2为64位PCI数据传输接口。J3,J4为自定义方式接口,设计中定义J3为处理板和后面板的数据传输接口,J4为上下处理板间的数据传输接口。
4.4 外部设备接口设计
本系统通过公用总线连接的存储器资源有:4个扩展应用的SDRAM,2个FLASH,2对扩展应用的FIFO,以及DSP片内存储器资源。所有存储器资源都通过统一的地址空间映射来进行区分。ADSP-TS201S的32位地址总线提供了高达4 GB的寻址空间,可以划分为4部分[3,8]:
(1) 主机寻址空间。地址映射范围0X80000000~0XFFFFFFFF,用于片外主机接口的地址映射空间。
(2) 外部存储块空间。地址映射范围0X30000000~0X7FFFFFFF,用于处理器外围设备存储器接口地址空间映射,包括通用的存储器设备和SDRAM存储器。设计中主要对此空间进行划分,为外部存储器分配单独和惟一的地址空间。
(3) 多处理器空间。地址映射范围0X0C000000~0X2FFFFFFF,主要用于多处理器构成的系统各个处理器间相互共享内部存储空间映射。
(4) 片内存储空间。地址映射范围0X00000000~0X03FFFFFF,定义内部存储器空间映射。
外部存储器可以分为SDRAM寻址空间和外部通用存储空间。设计中,扩展连接的SDRAM将分配占用SDRAM寻址空间,而外部FLASH和FIFO将分配占用通用存储空间。
每两片SDRAM扩展连接为64位形式,设计用MSSD0和MSSD1分别作为每两片SDRAM的共用片选信号的控制信号,对应SDRAM寻址空间为0X40000000~0X44000000和0X50000000~0X54000000,可以分别获得128 MB的存储器寻址范围,满足SDRAM寻址要求。
外部两片FLASH的寻址空间划分分别通过MS0_AB与BMS_AB和MS0_CD与BMS_CD这两组信号作为片选信号,分配寻址空间为0X30000000~0X34000000和0X34000000~0X348000000,寻址空间范围为128 MB。
外部4片FIFO,每两片扩展接成32位输出/输入方式,在进行地址映射时,实际上可以映射到一个地址寻址空间,而通过控制读写信号来进行区分,使用MS1信号作为FIFO使能信号,获得分配的寻址空间0X38000000~0X40000000。为方便逻辑控制,MS1信号脚连接到FPGA上,通过FPGA的逻辑译码来获得对FIFO的寻址控制。
另外,将ADSP TS201S的高八位地址线也连接到FPGA上,通过逻辑译码进一步可以获得较为细致的地址划分方案,为设计带来更多的灵活性,同时也确保了设计的可靠性。
5 系统软件设计
由于系统硬件是基于DSP+FPGA的结构,相应的软件也分为两个功能模块。FPGA主要完成整个系统的数据传输逻辑控制,因此FPGA具体的处理流程嵌套在DSP的信号处理流程中。4片DSP主要完成信号的处理,大致的系统设计流程如图3所示。
4片DSP并行工作时,总线仲裁策略指定DSP1为主处理器,由它完成系统的初始化、数据程序配置、与CPCI工控机主机通信等,并参与运算工作[9]。当系统接收到数据时,首先判断信号的传输方式,若是并行信号,由FPGA进行相应处理后写入FIFO中,同时通过外部中断告知DPS1,随即DSP1发出中断申请,总线仲裁令DSP1获得总线控制权,读取FIFO中的数据并转存至公共存储区;然后DSP1通过LINK口与其他DSP通信,进行任务分配,其他DSP依次循环获得总线控制权,读取数据进行处理然后再存入存储区;最后,由DSP4控制将存储区里的数据写入FIFO,同时通知FPGA读取并完成时序转换后传输到PCI9656,由PCI9656将数据传输到CPCI总线,完成这一帧数据的处理。若系统接收到的数据是由J3口传输来的串行信号,则先由DSP2发出中断申请,总线仲裁令DSP2获得总线控制权,将接收到的数据转存至公共存储区;然后通过同样的方式在4片DSP间进行任务分配和处理,由DSP4写入FIFO,最后由FPGA和PCI9656联合将数据传输到CPCI总线,完成串行信号的处理。
6 结 语
本文介绍了一种基于PFGA的多DSP并行处理系统的设计,重点对DSP并行结构设计进行了分析,并介绍了FPGA设计和外部设备接口设计。实际应用表明,该多DSP并行处理系统应用于宽带雷达信号处理时,能够满足任务中的各项指标,还能完成设计外的其他功能,并且易于控制,稳定可靠。本文提供的系统设计方案能够为处理宽带雷达信号的其他研究人员提供一定的参考。
参考文献
[1]王国庆,张旭峰,黎湘.基于并行DSP的高分辨目标检测系统设计[J].现代雷达,2008,30(6):73-74.
[2]Analog Device Inc..ADSP TS201 TigerSHARC processorhardware reference[M].[S.l.]:Analog DeviceInc.,2006.
[3]刘书明,罗勇江.ADSP TS201XS系列DSP原理与应用设计[M].北京:电子工业出版社,2007.
[4]杜金榜,钟小鹏,王跃科.多DSP并行系统的设计与开发[J].计算机测量与控制,2006,14(5):658-660.
[5]黄锐,唐继勇,张磊.基于FPGA的多DSP系统接口电路设计[J].中国测试技术,2008,24(3):71-73.
[6]Analog Device Inc..ADSP TS201 Tiger SHARC processorprogramming reference[M].[S.l.]:Analog DeviceInc.,2004.
[7]顾颖,张雪婷,张飚.基于ADSP-TS201S的通用雷达信号处理机的设计[J].现代雷达,2006,28(6):49-50.
[8]Analog Device Inc..ADSP TS201 Tiger SHARC processordata sheet(Revision C)[M].[S.l.]:Analog Devices Inc.,2006.
[9]李云志.并行信号处理算法的硬件实现研究[D].成都:电子科技大学,2009.