你的位置:EETOP 赛灵思(Xilinx) 社区 >> >> 全部 >> 详细内容

Verilog基本功之:流水线设计Pipeline Design

发布者:jackzhang 时间:2018-09-21 12:28:49

来源:CSDN 博客    作者:Times_poem

https://blog.csdn.net/Times_poem/article/details/52033535


本文从四部分对流水线设计进行分析,具体如下:

  • 第一部分什么是流水线

  • 第二部分什么时候用流水线设计

  • 第三部分使用流水线的优缺点

  • 第四部分流水线加法器举例

一.  什么是流水线

流水线设计就是将组合逻辑系统地分割,并在各个部分(分级)之间插入寄存器,并暂存中间数据的方法。
目的是将一个大操作分解成若干的小操作,每一步小操作的时间较小,所以能提高频率,各小操作能并行
执行,所以能提高数据吞吐率(提高处理速度)。

二. 什么时候用流水线设计

使用流水线一般是时序比较紧张,对电路工作频率较高的时候。典型情况如下:

1)功能模块之间的流水线,用乒乓 buffer 来交互数据。代价是增加了 memory 的数量,但是和获得的巨大性能提升相
比,可以忽略不计。
2) I/O 瓶颈,比如某个运算需要输入 8 个数据,而 memroy 只能同时提供 2 个数据,如果通过适当划分运算步骤,使用
流水线反而会减少面积。
3)片内 sram 的读操作,因为 sram 的读操作本身就是两极流水线,除非下一步操作依赖读结果,否则使用流水线是自
然而然的事情。
4)组合逻辑太长,比如(a+b)*c,那么在加法和乘法之间插入寄存器是比较稳妥的做法。


三. 使用流水线的优缺点

优点: 流水线缩短了在一个时钟周期内给的那个信号必须通过的通路长度,增加了数据吞吐量,从而可以提高时钟
频率,但也导致了数据的延时。举例如下:
例如:一个 2 级组合逻辑,假定每级延迟相同为 Tpd,

1. 无流水线的总延迟就是 2Tpd,可以在一个时钟周期完成,但是时钟周期受限制在 2Tpd;

2.流水线:

每一级加入寄存器(延迟为 Tco)后,单级的延迟为 Tpd+Tco,每级消耗一个时钟周期,流水线需要 2 个时钟周期来获得第一个计算结果,称 为首次延迟,它要 2*( Tpd+Tco),但是执行重复操作时,只要一个时钟周期来获得最后的计算结果,称为吞吐延迟( Tpd+Tco)。可见只要 Tco 小于 Tpd,流水线就可以提高速度。 特别需要说明的是,流水线并不减小单次操作的时间,减小的是整个数据的操作时间,请大家认真体会。

缺点: 功耗增加,面积增加,硬件复杂度增加,特别对于复杂逻辑如 cpu 的流水线而言,流水越深,发生需要 hold 流水线或 reset 流水线的情况时,时间损失越大。 所以使用流水线并非有利无害,大家需权衡考虑。

四. 一个 8bit 流水线加法器的小例子

非流水线:

  1. module add8(

  2.  a,

  3.  b,

  4.  c);

  5. input  [7:0] a;

  6. input  [7:0] b;

  7. output [8:0] c;

  8. assign c[8:0] = {1'd0, a} + {1'd0, b};

  9. endmodule

采用两级流水线:第一级低 4bit,第二级高 4bit,所以第一个输出需要 2 个时钟周期有效,后面的数据都是 1 个周期之后有效。

  1. module adder8_2(

  2.  clk,

  3.  cin,

  4.  cina,

  5.  cinb,

  6.  

  7.  sum,

  8.  cout);

  9. input          clk;

  10. input          cin;

  11. input  [7:0]   cina;

  12. input  [7:0]   cinb;

  13. output [7:0]   sum;

  14. output         cout;

  15. reg            cout;

  16. reg            cout1; //插入的寄存器

  17. reg   [3 :0 ]  sum1 ; //插入的寄存器

  18. reg   [7 :0 ]  sum;

  19. reg   [3:0]    cina_reg;

  20. reg   [3:0]    cinb_reg;//插入的寄存器

  21. always @(posedge clk) //第一级流水

  22. begin

  23. {cout1 , sum1} <= cina[3:0] + cinb [3:0] + cin ;

  24. end

  25. always @(posedge clk)

  26. begin

  27. cina_reg <= cina[7:4];

  28. cinb_reg <= cinb[7:4];

  29. end

  30. always @(posedge clk) //第二级流水

  31. begin

  32. {cout ,sum[7:0]} <= {{1'b0,cina_reg[3:0]} + {1'b0,cinb_reg[3:0]} + cout1 ,sum1[3:0]} ;

  33. end

  34. endmodule

这里讲到的流水线,主要是一种硬件设计的算法,如第一条中表述的流水线设计就是将组合逻辑系统地分割,并在各个部分(分级)之间插入寄存器,并暂存中间数据的方法。

针对处理器中的流水线结构。比如,比如 5—6 个不同功能的电路单元组成一条指令处理流水线,然后将一条指令分成 5—6 步后再由这些电路单元分别执行,这样就能实现在一个 CPU 时钟周期完成一条指令,因此提高 CPU 的运算速度。 一般的 CPU 中,每条整数流水线都分为四级流水, 即指令预取、 译码、 执行、 写回结果, 
openrisc 采用的是 5 级整数流水线。当然它们的核心思想都是利用并行执行提高效率。

总结一下,流水线就是插入寄存器,以面积换取速度。

最新课程

  • 深入浅出玩儿转FPGA

    本视频基于Xilinx公司的Artix-7FPGA器件以及各种丰富的入门和进阶外设,提供了一些典型的工程实例,帮助读者从FPGA基础知识、逻辑设计概念

  • 从零开始大战FPGA基础篇

    本课程为“从零开始大战FPGA”系列课程的基础篇。课程通俗易懂、逻辑性强、示例丰富,课程中尤其强调在设计过程中对“时序”和“逻辑”的把控,以及硬件描述语言与硬件电路相对应的“

  • Verilog基础及典型数字

    课程中首先会给大家讲解在企业中一般数字电路从算法到流片这整个过程中会涉及到哪些流程,都分别使用什么工具,以及其中每个流程都分别做了