Global Sources
電子工程專輯
 
電子工程專輯 > 製造/封裝
 
 
製造/封裝  

在SoC設計後端實現低功耗可配置處理器

上網時間: 2006年09月11日     打印版  Bookmark and Share  字型大小:  

關鍵字:可配置嵌入式處理器  SoC  PVT  低功耗  漏電功耗 

與傳統的固定指令集架構處理器相較,可配置處理器可顯著提高晶片能量效率。這種優勢源於三個方面的改善。首先,指令集的配置使得設計處理器更適合目標應用,減少了晶片執行的時脈週期數。其次,可配置處理器去掉了一些目標應用不需要的功能,降低了功耗和面積開銷。第三,自動化的處理器產生工具保證了邏輯最佳化、減少了訊號的電路開關活動概率,並能無縫映射到低壓電路和製程,使電路能在極低電壓下工作。第一條性能改善已經得到了很好的研究。第二和第三條需對電路和版圖進行詳細驗證。

本文從現有的功耗節省選項開始,涉及內容包括對設計結果的分析和權衡:設計優先級權衡、製程方面的影響,以及採用與主流SoC相容的商用可變VDD電壓單元庫來實現低功耗可配置處理器。這些處理器設計功率在0.8V時可達到20uW/MHz,在0.6V時接近10uW/MHz,上述結果是採用0.13um製程庫後得到的。最後還量化了小型處理器核心在版圖設計後其漏電流對製程、電壓和溫度所表現出來的強烈相關性。

降低SoC處理器核心功耗

處理器是SoC設計基本建構模組。通用的固定指令集架構(ISA)處理器開關功耗和漏電功耗都相當高。而且,為獲得更高系統性能,在通用處理器的基礎上添加新功能和特性勢必會進一步提高晶片功耗,這與製程是無關的。採用可配置處理器能降低系統功耗,因為這種可配置處理器主要針對目標應用進行定製。

隨著晶片電晶體數目的增加,以及對功耗敏感的消費產品上市時間縮短,特定處理器的問題將集中在以下各方面:如何在現有的技術條件下降低晶片功耗;以及如何降低基於處理器設計方法的晶片能量。本文基於如下假設,即可配置處理器能在保證較低工作頻率情況下維持目標應用性能。本文對先進的ASIC設計流程中實際的功耗節省技術進行了量化與分析。圖1對四個演算法的能量效率進行了詳細分析與研究。這四個演算法包括針對兩個2,048個向量元素的點積運算、高階加密標準(AES)安全密碼、無線通訊中維特比譯碼和256點的複數快速傅立葉變換(FFT)。當採用Xtensa處理器架構時,功耗效率改善的範圍為2倍到82倍。

ITRS預測在多核心SoC設計中的嵌入式處理器核心數量將隨著每一個技術節點的出現而提升一倍。在SoC設計中採用多個嵌入式處理器核心已經變得非常流行。根據處理器依比例縮小的模型,未來SoC設計將基於大量處理器,以作為基本的建構模組。

矽晶片資源的重分配朝向多核心SoC的轉移使得低功耗處理器的應用成為必然趨勢,尤其對行動、手持、電池供電的應用更是如此。事實上,單元庫供應商一直在邏輯閘電路級推出低功耗設計平台,如Artisan的SAGEX和Metro的標準單元庫,以及Virtual Silicon的Mobilize標準單元庫等,都能確保實現低功耗設計。


圖1:不同應用情況下處理器的有效性增益

另一方面,由於對通用嵌入式處理器更高性能的追求,使得設計人員需要增加更多的閘電路,這就導致了更大的處理器晶片面積和動態功耗(依uW/MHz升高)。這種處理器面積和功耗的增加是由於增加了管線深度以允許處理器執行更高時脈頻率,透過增加先進架構特性降低分支作業的系統開銷,以及透過增加新的指令支援新應用領域。為應對這種趨勢,針對特定應用來最佳化處理器指令集和執行已逐漸成為一種重要的設計方法,以保證晶片能量的最小化。

節省功耗的選擇

圖2顯示了目前節省功耗的可行方法。動態功耗或者開關功耗如下式所示:


圖2:降低SoC功耗的方法

而漏電功耗則由下式表示:

Pleakage=Ileakage×V×A

在上式中,k=常數(通常在0到1間變化),C表示電容器,V表示操作電壓,F為系統設計頻率,SA是開關活動狀況,Ileakage為統一的邏輯閘漏電流,A表示全部有效的電晶體寬度(通常與邏輯閘面積和閘數成正比)。選擇可配置架構能讓系統設計人員使用靈活的專用處理器配置,而非採用通用的、固定性能處理器。

為充分節省矽晶片資源,可配置處理器透過改變功耗方程式中的大部份變量以實現低功耗設計,即更小的處理器配置(省去無用功能特性)減少了變量C和變量A,這種專用的架構能讓用戶在每個時脈週期執行更多任務,或是以最低時脈頻率F來執行系統任務,且閘控時脈的廣泛使用可使系統開關活動狀態SA達到最低。這項工作集中在基於設計優先級下的功耗節省選擇(C和A相對於時脈頻率F)、製程技術(C)、可變VDD電壓(V)和DVFS(V和F),各種權衡與折衷在任何適用的情況下可被一一展現。

本文將探討針對任何一個特定的系統架構以進一步降低功耗所採用的技術。採用相同的小規模可配置處理器設計(一個小規模的基於Tensilica的Xtensa LX處理器的配置)可保證本文在比較時的一致性。這個完整的32位元Xtensa架構處理器晶片邏輯部份面積小於0.2mm2。在Silicon Ensemble(SE)工具中使用最好的製程、電壓和溫度(PVT)情況來檢查保持時間。所有的時脈時序報告均基於目標時脈,該目標時脈受到最壞PVT情況下,內部觸發器到觸發器通路上之最糟時序違反路徑延遲的限制。佈局佈線使用了一個6層系統中的5層。佈線後的閘級模擬採用6種不同的測試工具套件以製作SAIF文件,然後用Power Compiler來測量版圖之後背注網表的處理器功耗。

為節省功耗,在可變VDD電壓方法中,必須注意設計最後投片時的時序,這是因為存在著固有的噪音容限降低、IR壓降、串擾所導入的訊號完整性以及片上變異效應等問題。

速度、面積和功耗的權衡

根據不同的應用領域,嵌入式處理器設計可透過犧牲矽晶片面積和功耗以追求最高時脈速度,如桌上型電腦和伺服器應用;而在電池供電/體積受限的行動設計中,處理器設計優先級則恰恰相反。

針對同一個嵌入式處理器,我們採用Artisan的SAGE-X標準單元庫在TSMC 0.13um LVLK-OD製程下合成了9種不同時脈頻率版本。採用Cadence的SE佈局佈線工具,所有設計利用率都大致在97%左右。如圖3所示,在速度、面積和功耗之間存在相當大的權衡空間。在TSMC 0.13um LVLK-OD製程下,最快的377MHz處理器和最慢的150MHz處理器在版圖產生後的面積相差18%。這9個處理器面積都非常小,所以對於最壞時脈頻率和功率、合成結果和版圖結果相關性很大,頻率相差大約在2%以內,而功耗方面的相差則在10%以內。


圖3:速度對面積和功耗的權衡(0.13um LVLK-OD工藝)

在0.13um GFSG製程下(採用Artisan的SAGE-X標準單元庫),9個處理器的合成結果如圖4所示。Cadence的SE佈線工具在各種情況下的利用率為90%~97%。在圖4中,採用0.13um GFSG製程時,經過佈線後在299MHz的最快頻率下和150MHz的最慢頻率下,處理器面積有37%的不同。


圖4:速度對面積和功耗的權衡(TSMC 0.13um GFSG工藝)

同時,GFSG製程下還顯示了版圖後和合成後晶片面積的緊密相關程度(在5%以內),而在功率方面則表現出較鬆散的相關程度(約20%)。GFSG製程下鬆散的功耗相關程度似乎源於晶片上互連線寄生電容器的不同,因為合成後和版圖產生後邏輯閘數量的差異僅佔很小的百分比。在LVLK-OD製程下更緊密的相關則是由於在LK(金屬間絕緣常數為LK製程下為2.7,而在FSG製程下是3.7)製程下較小的互連寄生電容器所引起。對於LVLK-OD製程,除去兩種以增加面積為代價獲得300MHz以上速度的情況外,mW/MHz對所有處理器核心都近似保持常數。隨著專用製程下對目標頻率要求的提高,mW/MHz參數隨著採用更高驅動能力的單元而增加。對低功耗設計而言,對某一製程確定目標處理器頻率是否超出曲線的拐點就顯得非常重要。對GFSG製程,更多的處理器核心需要更大的晶片面積以得到其目標處理器工作頻率,相應地增加了晶片的功耗。

由於合成後和版圖產生後在功耗和面積方面的相關性隨著不同的單元庫/製程而具有很大的不同(即使針對相同的處理器設計),以下將只報告版圖產生後的結果。

製程技術影響

圖5概括了製程對處理器面積和速度的影響,圖中曲線分別表示0.13um的LVLK-OD製程和GFSG製程,採用了Artisan的SAGE-X標準單元庫。對於相同的速度性能,LVLK-OD製程與GFSG製程相較可以節省10~20%的處理器面積,即速度越高,節省的晶片面積越多,這種晶片面積的節省隨著晶片工作頻率的降低而逐漸消失。


圖5:工藝技術對面積的影響

圖6表示採用的不同製程對動態功耗和速度方面的影響。對於相同的速度性能,0.13um的LVLK-OD製程與0.13um的GFSG製程相較可以節省超過20%的動態功耗。請注意0.13um的LVLK-OD製程和0.13um的GFSG製程均有相同的1.2V核心電壓VDD。


圖6:工藝對動態功耗的影響

0.13um的LVLK-OD製程與0.13um的GFSG製程相較有一個明顯的劣勢,即其漏電功耗有大約440%的增加,如圖7所示。


圖7:工藝對漏電功耗的影響
然而,對於150MHZ和300MHZ的處理器,在採用0.13um的LVLK-OD製程時仍然可以節省至少10%的總功耗,但在晶片的工作速度變低時功耗節省會逐漸消失。

可變電壓方法

依照在第二部份討論的Pdynamic功耗中之V2效應,可變電壓方法對降低晶片的動態功耗非常有效。由於漏電功耗與電壓V成正比,因此Pleakage也將相對降低。IP供應商重新設計並精心打造了功能模組電路,因而所有模組都能正確執行在TSMC的0.13um G(通用)製程中經過降低的VDD電壓下。

我們分別研究一下兩種先進的低壓標準單元庫,即Virtual Silicon的Mobilize標準單元庫和Artisan的Metro標準單元庫。

在低電壓VDD時,速度和功耗間的關係更加明顯,即為了獲得每一Mhz更快的時脈速率,面積開銷在低壓VDD時增長更快,因為必須透過使用更多的低電壓(弱驅動)單元來得到速度增益。儘管對快速的低壓設計需要更大的晶片面積,然而功耗卻改善了。對於相同的150MHz版圖產生後處理器速度,可變VDD方法可大幅節省功耗,這主要是因為C*V2效應:與1.2V相比,Virtual Silicon的1.0V單元庫可以降低功耗17%,而0.8V的單元庫可以降低功耗53%,如圖9所示。


圖9:採用Mobilize單元庫得到的速度與功耗之間的關係

從圖10可以看出,低壓VDD時顯著提高了功耗效率,在0.8V VDD電壓下可以得到21.5uW/MHz的歸一化功耗。


圖10:採用Mobilize單元庫得到的速度與功耗的關係

整個漏電功耗如圖11所示,圖中包括三種150MHZ的嵌入式處理器,漏電功耗變差的現象並不如可變VDD下那麼明顯,漏電功耗變差是因為為了保持目標處理器速度的增加必須增加處理器的面積。


圖11:採用Mobilize單元庫得到的漏電功耗(處理器頻率150MHZ,最壞情況下)

然而,漏電功耗密度(每個單元面積)隨著VDD而變化,這說明模型的大部分漏電流來自次閾值擴散電流,而不是漂移電流。否則,比例因子將變成VDD2而不是VDD。

Artisan Metro結果

我們採用Artisan Metro低壓標準單元庫執行了一組不同的試驗,重點集中在低壓和低頻操作,包括採用動態頻率和可變電壓功耗管理策略。Artisan的單元庫包含了一個經過完整標度過的漏電模型,該模型可以對處理器的邏輯電路漏電情況進行詳細分析。我們採用一個處理器配置用WC 1.08V的Metro單元進行最佳化,建立兩個在邏輯上等價的處理器版本:一個是高速的處理器,一個是低速處理器。在不改變整個版圖的前提下,我們採用其它四個低壓Metro單元庫來對兩個處理器版本的時序和最大功耗進行重新分析,即所有的高速處理器版本面積為148,000 um2,而所有的低速處理器版本面積為121,000 um2。電壓和速度的關係如圖12所示。


圖12:採用Metro單元庫得到的電壓和速度的關係

即使在0.6V時也能得到30到40MHZ的可用性能。速度與功耗的關係如圖13所示,在相同設計的處理器情況下,隨著電壓VDD的降低,時脈速率也相應降低,而整個系統的功耗則有明顯的節省。


圖13:採用Metro單元庫得到的速度與功耗間的關係

高速和低速處理器的歸一化功耗(uW/MHz)如圖14所示。


圖14:採用Metro單元庫得到的速度與功耗效率之間的關係

功耗效率有明顯的改善:從1.08V到0.6V功耗效率提高3倍多,最壞條件下在0.6V VDD電壓下歸一化功耗僅為11.3uW/MHz。

Artisan Metro動態可變電壓/頻率結果

DVFS技術減小了低性能任務的功耗。針對特定應用的處理器擴展帶來的附加優勢在DVFS技術下表現的非常明顯。透過對處理器進行擴展,需要達到某一性能時的處理器頻率可以降低,因此時脈頻率和電壓都可以減小,這足以補償因處理器擴展帶來的每個時脈週期所增加的晶片功耗。

由於低功耗設計平台Metro和Mobilize都支援DVFS特性,因此與處理器電路相關的關鍵問題是:在每個電壓設置點最大的時脈頻率和功耗是多少?高速處理器版本被用於擷取DVFS功耗,得到的數據如圖14所示。DVFS的工作電壓在最壞條件下為0.6V、0.7V、0.8V、0.9V和1.08V。如圖15所示,隨著處理器工作頻率的變化,晶片的動態功耗相應地降低了19倍。


圖15:採用Metro單元庫得到的DVFS操作功耗
注意到,當處理器頻率從240MHz遞減到40MHzs時,動態可變頻率技術(DFS)僅僅降低了6倍的動態功耗。

漏電功耗與製程、電壓和溫度的關係

動態功耗和能量效率正在逐步獲得廣泛認識與理解。EEMBC評測協會正在開始開發一種標準化的方法來評測處理器的功耗。然而,即使到今天,處理器漏電功耗仍然很少在文獻中被提到,更不用說它與處理器的製程、電壓和溫度之間的關係了。

本部分採用標準單元庫中現存的漏電模型來評估處理器設計中的漏電情況。採用「可變電壓方法」中第2部分的高速版本處理器和Artisan公司為LV和LVOD(相同的閘限電壓值Vth)設計的SAGE-X標準單元庫,我們得到的與製程相關的漏電功耗如圖16所示。


圖16:漏電功耗與工藝的相關性

起初,標準單元庫並不包括TT/1.1V/125℃模型。為了評估在相同電壓和溫度下漏電功耗與製程的相關,圖6展示了一個經過建模後的TT/1.1V/125℃數據點,該數據點是四個其它TT數據點(用LVOD/LV標度過)的平均值,而每個TT數據點均由VDD*exp(-qVth/KT)並依比例縮放。結果顯示漏電功耗具有指數相關性:對於相同的Vth閾值、相同的VDD和溫度,FF製程和SS製程漏電功耗相差超過16倍。

值得一提的是,使用不同的用於功耗分析的代碼序列,漏電功耗只有幾個百分比的差別。採用「可變電壓方法」中第2部分提出的高速和低速處理器模型,與電壓相關的漏電功耗在SS製程下85℃(WC)時的情況如圖17所示。


圖17:漏電功耗與電壓的相關性

漏電功耗密度也與前面圖11提到的一樣與VDD成線性關係。儘管擬合得非常緊密,但是高速處理器會使用更多的漏電單元,表現在它具有更高的漏電功耗密度。採用高速版本的處理器模型和Artisan公司為LV和LVOD製程設計的SAGE-X標準單元庫,我們得到了漏電功耗與溫度的指數關係,如圖18所示。


圖18:漏電功耗與溫度的指數關係

在溫度為25℃時,TT製程具有最低的漏電功耗。在FF/110%VDD/125℃的PVT和TT/VDD/25℃的PVT之間,我們觀察到的漏電功耗差別超過70倍。

本文小結

我們對一系列超低功耗處理器實現進行了詳細的分析,揭示了速度和面積設計優先級之間的重要關係。這種關係說明為了維持更快速的處理器設計,系統設計人員需要增加越來越多的硬體邏輯閘電路。受益於更快速的製造製程,處理器在實現相同速度和性能時具有更小的面積和更低的功耗,其代價是更高的漏電功耗而且漏電功耗在整個處理器的功耗中會佔更大的比例,當然該比例與處理器的運行速度有關。

本文展示了採用可變電壓VDD技術可以大幅度節省嵌入式處理器實現時的功耗。雖然在低VDD電壓時存在遞增的速度和面積開銷,但在最低VDD電壓時,功耗效率可以提升三倍以上。DVFS技術更是可以使得功耗降低19倍。處理器漏電功耗大小跟溫度和製程成指數關係。對於相同處理器的9種不同配置可以看出,採用低電壓單元庫可以顯著降低處理器的動態功耗和漏電功耗。這種電路級的功耗節省是對處理器體系結構級功耗節省的有益補充。這些處理器核心的絕對結果隨著不同的設計、流程和方法及其它影響因子而有所不同。因而這些數據只適用於本文討論中提到的各種技巧和權衡。

作者:Chris Rowen

總裁兼CEO

rowen@tensilica.com

John Wei

首席技術專家

jwei@tensilica.com

Tensilica公司





投票數:   加入我的最愛
我來評論 - 在SoC設計後端實現低功耗可配置處理器
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首