Global Sources
電子工程專輯
 
電子工程專輯 > FPGA/PLD
 
 
FPGA/PLD  

如何在65nm FPGA設計中獲得更高性能

上網時間: 2007年01月12日     打印版  Bookmark and Share  字型大小:  

關鍵字:FPGA  65nm  90nm  LUT  ISE 8.2i 

隨著系統複雜度不斷增加,加上功能需求越來越苛刻,利用現有FPGA實現最大性的挑戰性愈來愈大。要在FPGA系統設計中最大化系統性能,需平衡性能-效率組件,包括邏輯結構、晶片上記憶體、DSP模組和I/O頻寬。本文將探討FPGA設計師如何受益於最新的FPGA建構模組以滿足所要求的更高系統級性能。本文將研究新的65奈米結構特點,量化期望邏輯和算術功能性能改善。

要支援期望的性能等級,硬IP模組是必要的,這種性能等級可能受到結構之外的潛在瓶頸限制,如晶片上記憶體緩衝、DSP模組或I/O。為此,要提供不同設計基準的分析以瞭解新產品的影響及技術創新,並對期望值進行量化。

邏輯結構性能

自1980年中期第一款FPGA問世以來,絕大多數FPGA的邏輯結構均基於相同的基本4輸入查找表(LUT)架構。今天,高性能65奈米FPGA如Xilinx Virtex-5系列,則提供了基於6輸入LUT(6-LUT)的架構,具有獨立(非共享)的輸入。在65奈米節點轉換到6-LUT架構,能提供有效的關鍵路徑延遲與可利用的矽晶片面積折衷,關鍵路徑延遲是邏輯結構性能的決定性因素(圖1)。

在65奈米的FPGA中,互連時序延遲超過關鍵路徑延遲的50%。Xilinx在其65奈米FPGA中開發了一種新互連模式,透過很少的跳轉到達更多地方,以最小化延遲。新模式大幅增加了在兩跳或三跳中可獲得的邏輯連接數量。而且,這種互連方法的佈線模式能讓佈局佈線軟體更容易發現最佳路徑。對FPGA設計師而言,這些互連特點將轉換為更高的整體性能和更簡單的設計佈線。

更清楚展示這種好處的實例是典型的多工器(Mux)設計。在90奈米FPGA中實現一個8:1多工器需要四個4輸入LUT,而65奈米架構只需要兩個6輸入LUT。如此可獲得更佳性能和更高的邏輯利用率。

整合65奈米製程技術和新的進位鏈結構還能提供更高的算術運算性能。在表1中可以很容易地看到對關鍵路徑延遲的影響。

分散式記憶體功能,像LUT RAM或ROM等也從其它方面受益於更大的6輸入LUT架構。新的縱橫比允許小記憶體功能獲得如表2所示的更多性能優勢。採用6-LUT架構的改良邏輯結構所提供的性能改善及互連結構很重要,但這僅僅是開端。


圖1:在65奈米製程中6輸入LUT架構提供了關鍵路徑延遲與晶片面積的最佳折衷


表1:在採用Virtex-5 FPGA實現設計時,各算術功能顯示出路經延遲顯著降低。


表2:基於LUT的RAM/ROM實現也顯示出採用Virtex-5 FPGA的顯著改善。

Block RAM性能

對獲得更高系統性能來說,晶片上記憶體的性能也非常關鍵,因為廣泛用來儲存演算法過程之間的數據。無論是基於LUT的分散式記憶體、Block RAM或FIFO,晶片上記憶體用於相對較小的緩衝儲存。不同的應用需要不同的記憶體容量及存取時間。選擇正確的記憶體以及完全利用晶片上記憶體可大幅提高系統性能。例如,分散式LUT RAM非常適合更小尺寸(<4Kb)和快速的時脈到數據輸出,而Block RAM可提供更大的緩衝記憶體,頻率高達550MHz。

採用65奈米製程後,Block RAM時脈速度成長10%,達到550MHz。然而,為獲得目前絕大多數應用期望的性能,Block RAM不僅要更快,還要更大。Block RAM的大小已倍增到36KB。這種更大的區塊(包含兩個18Kb的記憶體)將支援簡單雙埠模式的72位元數據字,這將使Block RAM頻寬倍增。而且,新的架構提供了專門的連接,使設計師能將兩個相鄰的36KB Block RAM在Block RAM列中層疊,以實現執行在最大550MHz速度下的72KB記憶體。

DSP性能

很多影像、訊號和數據處理應用都需要能在更高速度下實現數學演算法的增強平行特性專用邏輯。某些最新的FPGA產品使設計師能配置DSP的部份以實現多工器、計數器、乘法累加器、加法器和很多其它功能,這些都不需要佔用邏輯結構資源。

為滿足對DSP性能似乎無止盡的需求,65奈米DSP模組的性能大幅強化,在時脈速度和精密度上均有提高,時脈速度增加到550MHz,與90奈米相較,精密度從18×18位元增加到25×18位元。DSP48也針對加法器鏈的實現進行了最佳化,這些增強的功能實現了高性能濾波器的創新。

每個DSP48的輸入輸出上的專用佈線資源允許任意數量的片段在行列中被‘鏈接在一起’。這種專用的佈線資源能確保在鏈條中的每一個DSP48片段在不佔用任何的結構佈線或邏輯資源的條件下全速執行,就像其它FPGA所要求的一樣。這些改善約可減少實現普通高精密度功能所需要資源的50%。例如,在90奈米的FPGA中,實現35×25位元乘法需要四個DSP48,但是對於65奈米FPGA中更寬的DSP48模組,則只需要兩個。

I/O性能

正如性能測試基準所顯示的,FPGA可處理的數據速度只與元件的I/O頻寬條件相關,即大量數據移入移出元件的速度。當使用外部記憶體對介面進行緩衝儲存時,速度必須是數據處理速度的兩倍以上,因為數據必須在FPGA之外寫入,以及讀入到FPGA。

相較於前一代90奈米元件,65奈米FPGA增加了I/O頻寬,包括每個接腳數據速度,以及更大封裝的可用接腳數。例如,在像DDR2 SDRAM這類記憶體介面上,每個接腳的頻寬從534Mbps增加到667Mbps,當考慮到同步開關輸出(SSO)要求,數據I/O的數量也從432個增加到576個。這些實質性的改善是由於65奈米技術在每個封裝中能提供更多I/O數量及嵌入到每個I/O模組之硬IP數量所實現的,先進封裝技術能提供更佳電源與地分佈,從而最小化SSO噪音。

設計基準與分析

為評估FPGA邏輯結構實現的性能改善,Xilinx利用其整合軟體環境(ISE)實現了一組客戶設計,這些設計都用VHDL或Verilog寫成。某些特定設計單元,例如記憶體和FIFO使用直接記憶體組件實例或合成推論來實現,但是其中很多也是採用EDIF模組實現,EDIF模組由CoreGenerator產生,CoreGenerator是ISE軟體的一部份。

對於這些測試基準,利用來自Synplicity公司的Synplify Pro,使用嚴格、真實的約束條件以時序驅動方式有效地測試性能。這樣做將確保所有特殊最佳化和邏輯複製得以實行。

在更多的佈局佈線工作下,可以完成在ISE中的實現。時脈依5%的增量緊緊重覆,直到設計不能滿足設計約束。其結果是獲得比上一代90奈米Virtex-4 FPGA高出30%的性能,如圖2所示。


圖2:基於74個採用Xilinx ISE 8.2i的用戶設計比較。

具有最大改良的設計擁有大量邏輯,如關鍵路徑實現了一個大的、通常很複雜的邏輯等式。一般來說,對於在關鍵路徑中的大量邏輯,ASIC原型設計具有很少的暫存器。而新的設計則展現了65奈米結構的重大改進。

例如,在設計套件中的第二個最大改良(53%)是視訊應用的用戶設計。乘法器大小必須完美地適合65奈米FPGA的DSP48片斷。要在90奈米上實現相同設計,需要兩個乘法器及一個加法器,這將使關鍵路徑對設計中指定的延遲更慢。

另一個實例中展現了一般的性能改良,該實例的改良僅有5%,因為設計得到很好的管線處理而且在90奈米的設計中邏輯的層次就很少,因此減少邏輯層次的機會很少。分析顯示為改進這種特定設計,Block RAM需進行完全的管線處理,因為它會增加關鍵路徑的延遲。當其兩級管線都使用時,Block RAM只全速執行。

本文小結

在針對更高性能的研究中,目前FPGA設計師必須評估最新的FPGA技術。很明顯,像基於6輸入LUT架構的Xilinx 65nm Virtex-5 FPGA,由於具備更快的佈線、緊密地連接到更高性能的硬IP模組和I/O等特性,與前一代的架構相較,能大幅提升性能。

作者:

Adrian Cosoroaba

行銷經理

Virtex方案部

Frederic Rivoallon

合成方法學經理

Xilinx公司




投票數:   加入我的最愛
我來評論 - 如何在65nm FPGA設計中獲得更高性能
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首