Global Sources
電子工程專輯
 
電子工程專輯 > 製造/封裝
 
 
製造/封裝  

提升晶片可信度 自我修復晶片研究受關注

上網時間: 2006年10月13日     打印版  Bookmark and Share  字型大小:  

關鍵字:自我修復  容錯架構  self-healing  defect-tolerant architectures  迴圈冗餘校驗 

你一定不希望在汽車、飛機或醫療設備中的晶片會突然失效,但隨著45奈米及其以下製程可靠性逐漸惡化所帶來的挑戰,上述情況有可能成為事實。有鑑於此,美國半導體研究公司(SRC)和美國國家科學基金會(NSF)正贊助一項可以檢測並修復其缺陷的‘自我修復’(self-healing)晶片創新研究。

這項為期三年的研究計劃將贊助密西根大學的兩位主要研究者,包括電子工程系副教授Todd Austin和助理教授Valeria Bertacco。與目前採取的模組冗餘方法所必須犧牲較大面積不同,這兩位研究人員已經發表了關於最小化面積和性能權衡的容錯架構。在該計劃研究期間,研究人員將致力於提高缺陷的涵蓋面,並將新的架構擴展到各種晶片上。

儘管類似可製造性設計(DFM)和限制性設計規則(RDR)等技術將有助於維持奈米產品的良率,但仍將有一定的晶片會在生產後數日、數月、甚至幾年內失效。可能出現故障的地方包括電子遷移、熱載子退化、未發現的製造缺陷、不可預測的製程變異,以及太薄和易受損的閘氧化層等。

“隨著晶片面積越來越大但幾何尺寸越來越小,我們將會發現並非晶片中的所有電晶體都可正常運作,”SRC公司CAD和測試總監Bill Joyner說。“雖然面對元件失效的事實,但我們仍期待所進行的研究將會使晶片和系統保持正常運作。”

Austin說,自我修復晶片可能使摩爾定律延伸一代或兩代。“用來形成電晶體的原子數量太少,以至於任何的變異都會導致其太弱或太慢,”他說。“透過在系統中建立自我修復功能,你可以容許這類狀況,並有機會延長CMOS晶片的產品壽命。”

Bertacco說,晶片能否從故障中復原是重要關鍵。“除非有新技術使其可克服故障,否則不久我們所製造出的晶片只能持續很短的時間,”她說。

按照Joyner所說,SRC的成員包括部份美國最大的半導體供應商,他們對自我修復晶片已經表現出莫大的興趣。英特爾公司資深研究科學家Shih-Lien Lu表示,同為SRC成員的Intel公司對此當然“絕對”會感興趣。

Lu說,對於可以檢測錯誤、可從中恢復且最終自行修復的晶片存在著一定的需求。他說,英特爾公司已經研究出幾種檢測和恢復的方法,但是並未對自行修復或修復進行廣泛的研究。“我們對於自我修復感興的原因之一在於其不僅針對記憶體,也針對邏輯電路,”Lu說。“而且,它也與修復有關,而不僅僅是製造測試。”

Gartner Dataquest公司設計與工程研究副總裁Mary Olsson說,自我修復晶片的研究已有數年之久,但他們卻提出了“未來技術的一大議題”。她提到,就像限制性設計規則(RDR)一樣,自我修復晶片可能潛在性地減少對某類DFM或IC佈局工具的需求。因此,她指出,如果自我修復晶片真正實現,那麼對於RDR的需求將減少。

容錯的新方法

密西根大學的Bertacco說,容錯架構並非新鮮事,但迄今為止卻僅限於高階運算系統。她說,容錯架構主要採用的方法是三重模組冗餘(TMR),具有系統的三個副本。“因為其在面積上需要200%的額外成本,因此是非常昂貴的技術,”她說。“相形之下,我們試圖提出的解決方案成本很低,並且可以應用於更廣泛的系統中。”

Bertacco說,密西根大學最初的工作是關於微處理器,但是研究人員計劃將研究擴展到更廣泛的晶片範圍。她說,這項為期三年,每年投入10萬美元經費的計劃還將開發高層次的缺陷模型。系統設計師和架構師可以採用這些模型來評估系統對復原彈性的需求。

Austin指出,部份工作則是開發一個‘模擬基礎架構’,能對潛在的矽晶失效進行建模。他說,研究人員已經採用來自Cadence和Synopsys公司的工具,並增加了將錯誤‘注入’系統中的功能。因而該模型便可以用於評估設計的完整性。

Austin和Bertacco共同發表了兩篇有關自我修復晶片初期研究的論文。第一篇論文在二月份召開的高性能電腦架構國際研討會(HPCA)上發表,文中即討論到容錯晶片多重處理器(CMP)交換架構。

該論文提出了針對矽晶錯誤的高層次建模方法,並描述了CMP交換佈線架構,該架構整合了系統級檢查和恢復、元件級故障診斷以及多餘元件的重新配置等。這種‘萬無一失’的交換架構設計宣稱比現有的方法更具韌性和更低成本,其中包含了TMR和誤差校正碼。

瞄準了多核心晶片的容錯交換設計,可在交換器的輸出通道上透過迴圈冗餘校驗來檢測資料破壞等錯誤。在輸入緩衝器中增加恢復邏輯。而為了檢測會導致功能不正確的錯誤,該設計採用緩衝器檢查器單元、額外的佈線邏輯單元和額外的交換器仲裁器等。根據該論文所述,面積的額外成本僅佔10%。


圖:採用增加元件的容錯CMP交換器,研究人員宣稱其面積成本小於10%

第二篇論文發表於12月間於加州聖荷西所召開的‘編程語言與作業系統的結構化支援會議’上,該文討論了許多近期的工作。它概述了一種針對超長指令集架構的特定解決方案,採用了易於修復VLIW架構的自然冗餘法。

該論文介紹了新的管線設計,將其描述為“保護微處理器管線和晶片記憶體系統使其免於矽晶缺陷的第一個超低成本機制。”它透過結合了系統級檢查點的線上內部自測試技術(BIST)來達到這一目標。對具有32kB指令和資料快取的四路VLIW處理器,該方法宣稱僅採用5.8%的面積成本就達到了89%的矽晶缺陷覆蓋率,在缺陷被找到後則有4%到18%的性能降低。

在採用BIST來驗證基礎硬體的完整性期間,該方法採用微架構檢查點技術來開發執行的‘新紀元’。Austin提到,如果找到缺陷,該方法盡可能將時間‘返回’到無缺陷存在的最後時間點。透過更新管線並將備份的暫存器檔案複製到結構暫存器中,便可恢復到正確的狀態。

然後,再將故障部份從未來的運作中去除,該系統便會在性能降低的模式下持續運轉。而如ALU、乘法器和解碼器等故障功能單元在將來的使用中都將會失效。故障的暫存器檔案記錄便會採用替代的暫存器來修復。而且,在最近使用的邏輯中採用2位元暫存器排除了故障暫存器的佇列。

為了完成這一項工作,設計必須包含足夠的冗餘以便停用故障功能單元。“這是一個成本/性能的權衡折衷,”Austin說。“如果你不提供冗餘,你將必須採用很慢、成本昂貴的修復。”但是,他說,與傳統的技術不同,此一策略並不需要檢測錯誤的冗餘。

必要的限制

在Asplos論文中提到的限制和折衷為這項為期三年的研究新計劃提供了豐富的基礎。一個就是在錯誤恢復和修復後所發生的性能降低。Austin說,為了維持系統的性能,設計師可以‘過度供應’具有高度關鍵性的部份。

另一個限制就是目前的新式VLIW管線無法處理暫態錯誤,例如單一事件擾亂。研究人員正致力於檢測這類故障的新興解決方案。他們也正努力將該解決方案擴展到VLIW架構之外。

然而,可能的主要關切點是將缺陷覆蓋率增加到超過89%以上。Austin說,他希望覆率能逐漸提升到“29%、39%或49%”,一直到99.99%。

“在未來兩年中,我們將要做的大部份工作是努力將覆蓋率提高、提高、再提高,並保持成本的下降,” Austin說。

從教育的角度來看,“自我復原系統所面臨的未來挑戰是要能瞭解實際物理現象,將如何對產品設計的抽象描述造成影響,”Austin說。“那真是一個開放式的問題。我希望一旦我們建立起某些物理模型,我們可以讓架構師和設計師更能理解如何解決這些問題。”

作者:葛立偉




投票數:   加入我的最愛
我來評論 - 提升晶片可信度 自我修復晶片研究受關...
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首