突破每秒20億次存取速度的記憶體晶片揭密
關鍵字:序列記憶體 位元線 Bandwidth Engine 1T-SRAM SerDes
產品經理
UBM TechInsights公司
MoSys公司最新推出一款序列記憶體Bandwidth Engine IC,利用高效的10G序列介面與創新架構,可實現每秒20億次以上的記憶體存取速度。這種存取速度是支援100GE和100Gbps匯聚線卡要求的資料速率所必備的。Bandwidth Engine IC的運算邏輯單元(ALU)與記憶體架構中具有一定的智慧化,能夠加速諸如統計等網路作業,是專門針對高資料速率、預計長達10年的使用壽命以及政府強制要求降低功耗等具有嚴格限制規範的應用所設計。
Bandwidth Engine有別於傳統網路元件的關鍵在於其具備快速、智慧化存取性能,因而能夠在資料封包分級應用中發揮良好作用。這使得MoSys必須採用高度協同的設計策略。為了達到這麼高的存取速率,Bandwidth Engine IC結合了精確的產品定義、設計嚴謹的RTL代碼、高速且低延遲的串列解串器(SerDes)、MoSys開發的1T-SRAM核心技術,以及創新的佈局與封裝設計,最終形成一款利用高速序列介面以減輕SoC封裝與系統設計挑戰的元件。透過在一個Bandwidth Engine IC加入傳統記憶體元件,不僅提高了整體系統性能,同時也降低了功耗和成本。
Bandwidth Engine IC採用MoSys公司最初的技術創新成果──1T-SRAM,這是一種可達到接近SRAM速度的嵌入式DRAM記憶體,其關鍵技術是採用具有小型記憶體庫的eDRAM陣列架構,因而以較低延遲減少了位元線上的電容和電阻負載。
另外,1T-SRAM介面隱藏了DRAM刷新和預充週期,記憶體庫能以3.9ns的週期實現‘有如SRAM一樣快的’讀寫速度。嵌入式記憶體被組織成4個獨立的分區,每個分區再被分成64x (32Kb×72)個記憶體庫;因而總記憶憶體容量可達到576Mb。每個分區有一個寫入埠和兩個讀取埠,並以循環TDM方式進行取。這種陣列架構單元的組合可在每3.9ns週期時間內實現高達12次線上作業。因此,在10G作業模式下,每1ns就能發出三條指令。
Bandwidth Engine的核心記憶體陣列架構增加了效率高達90%的創新型低延遲介面,因而可執行於1到16條相容於CEI-11或XFI的差分序列鏈路上。另外並針對高存取速率的元件最佳化Gigachip介面(GCI),這可透過採用具有72位元淨負荷與8位元CRC校驗的80位元封包加以實現。相較於典型的網路串列解串器應用,GCI序列介面是專為晶片到晶片通訊而設計的,其中包含有一個自動錯誤恢復機制,以確保符合企業與電信市場所要求的資料傳輸可靠性。
MoSys選用了平均同步介面以盡可能減少與傳統串列解串器有關的延遲。數據資料透過控制模組形成管線,然後以位元串流的形式饋送給4個1T-SRAM分區。而在發送端,隨著每一可用分區依次每1ns讀取一個,最多可以讀出2個數據字元,並返回GCI介面,再傳送資料至主機。
Bandwidth Engine的另一個創新特性是每一分區有一個晶片上ALU,可以透過內部‘讀取-修改-寫入’的指令作業控制資料。利用ALU能夠卸載主處理器的工作量,並釋放出介面資源以用於其它作業,從而實現更高的性能以及提升能效。由於ALU與每個分區具關聯性,因而在作業於10G介面速率時,每1ns就能發出一條指令。為了確保進行ALU作業後的資料完整性,必須針對72位元字符的ECC特徵位元進行檢查,並在必要時進行校正以及重新計算。
在晶片方面,MoSys選擇了台積電(TSMC)作為製造代工廠。該元件採用台積電基於位元線下電容技術的嵌入式DRAM製程,如圖1所示。透過整合台積電穩定的製程技術與MoSys自有的創新晶片設計,MoSys開發出成功的元件。
圖1:Bandwidth Engine IC的掃瞄電子顯微鏡橫切面。
連接至位元線的感測放大器利用台積電相容邏輯元件製程中所有可用的金屬層。總共使用了三階段的多工感測放大器,第一級位元線在金屬層1中達20微米,用於將記憶體單元連接到第一級感測放大器。第二級檢測放大器多工兩個第一級感測放大器的輸出,用金屬層4的750微米位元線連接第二級感測放大器。最後,8個第二級輸出使用金屬層6的750微米位元線來多工第三級檢測放大器。
Bandwidth Engine的佈局也考慮到了主要設計目標──高取速率與低延遲。傳統的SerDes元件將I/O置於晶片邊緣,而Bandwidth Engine改變了傳統做法,將I/O、Gigachip介面和時脈電路都放在晶片中央。這樣做有兩大好處:可減少2-3ns的延遲且較均衡。將GCI介面和SerDes通道置於晶片中央還能降低接收器/收發器(Rx/Tx)的串擾,以及使未來新一代的Bandwidth Engine具有相同的接腳輸出。但這種設計方法面對的挑戰是在記憶體、核心與晶片SerDes之間要保持足夠的雜訊隔離程度。
圖2即顯示這種晶片佈局。同樣在SerDes模組的中央位置可看到兩個電感。這兩個電感用於組成鎖相環(PLL)中壓控振盪器(VCO)所使用的兩個LC振盪器中。必須用兩個PLL才足以涵蓋晶片所使用的6-10GHz頻率範圍。LC振盪器則用於實現低抖動PLL。
圖2:Bandwidth Engine的平面圖。請注意晶片中央支援電路的配置。
該晶片所採用的封裝方式也與晶片協同設計。在封裝上使用了8個金屬層,以便讓設計者可彈性地微調封裝導線的串聯電感。封裝電感設計用於補償寄生焊盤電容,因而能夠實現更加清晰的眼圖,從而改善回傳損耗,並降低數據誤碼率。
在進行測試時,由於測試儀器必須連接到Bandwidth Engine上的16個通道,這可能會來較高的測試成本。為了降低測試成本,在該晶片上整合了一個專門設計用於測試的處理器。該處理器可在晶片的製造過程中進行重新編程,因此當測試期間發現較低位元時,產品工程師就能針對測試演算法進行修改,從而確保達到可支援10年使用壽命目標的企業級與電信級品質與可靠性。未來還可望減少甚至消除這部份程式的下載燒錄時間。
總之,這是一款架構、設計、佈局、製程、測試與製造團隊之間合作實現的成果,可讓Bandwidth Engine達到企業用戶所需每秒20億次存取的資料率和10年的使用壽命。一項包括Bandwidth Engine設計在內的專利在一年半以前已提出申請,目前正在專利申請受理階段。MoSys已經從多家一線網路合作夥伴中贏得了多項設計訂單。由於該設計本身具有可擴展性,MoSys認為未來將為其進一步改善,使其可符合400GE的應用中。預計下一代產品能夠再提升50%的性能。
社區今日頭條 |
---|