Global Sources
電子工程專輯
 
電子工程專輯 > 處理器/DSP
 
 
處理器/DSP  

新一代多核心媒體處理器最佳化HD視訊應用

上網時間: 2010年07月05日     打印版  Bookmark and Share  字型大小:  

關鍵字:處理器  多核心  視訊  DSP  SP27xx 

本文以LSI公司新一代多核心媒體處理器或基頻處理器 StarPro2704 和 StarPro2716 (SP27xx)為例,說明如何針對HD視訊應用進行最佳化。與前一代產品相比, SP27xx 系列將媒體和基頻演算法處理能力提升了2倍,並加入了多種降功耗技術。

LSI公司的 SP2716 和 SP2704 主要針對 3G / 4G 無線基地台、更高密度的語音媒體網路閘道以及HD視訊伺服器等應用。其中SP2716是透過MCM多晶片封裝製程將4個SP2704的晶片封裝成一個晶片,其處理能力是SP2704的4倍。相對於4個SP2704,SP2716放寬了對單板尺寸的限制,讓用戶能擴展高階音視訊業務。

SP2704則繼承了前一代 SP2603 架構,它由2個基本模組組成:媒體處理模組(MPB)和封包處理模組(PPB)。媒體處理模組主要由4個 SC3400e 的 DSP 子系統組成,而封包處理模組的核心是ARM11雙核心處理器系統。在這種單晶片 DSP + ARM 的多核心處理器結構中,數據面和控制面分別由 DSP 和 ARM 來處理,使得 DSP 可以大幅利用其運算優勢,同時不需要額外使用外部處理器來處理應用程協議,是一種高效的音視訊媒體網路閘道結構。

SP2704 搭載了大容量內建記憶體,對於高密度語音網路閘道和非 HD 視訊應用,通常不需要使用外部記憶體,這可協助降低成本和單板總功耗,並減少軟硬體設計複雜度,同時放寬了單板尺寸的限制。此外, SP27xx 採用40nm製程,並導入多項低功耗技術。

SP2704內含4個頻率為750MHz的StarCore SC3400e DSP子系統(DSS)。相對於上一代晶片SP2603,如果不考慮DSP核心能力的增強,SP2704的DSP處理能力為SP2603的兩倍。每個DSS還包含記憶體保護單元(MPU),256KB本地零等待RAM,32KB一級指令快取記憶體,32KB一級數據快取記憶體,512KB L2快取記憶體,兩個專用的2通道DMA控制器。

其封包處理模組(PPB)是基於雙核心ARM11 MP的子系統,工作頻率僅為DSS工作頻率的一半。PPB主要負責整個晶片加載和管理(包括ARM和DSP),以及輸入輸出數據封包的管理。PPB還包括:ROM用於存放ARM Boot程式碼,以及SPI/SSP、UART、NAND flash控制器介面,可為客戶提供多種Boot方式。

SP2704中有2個超高頻寬匯流排矩陣:DSP匯流排矩陣和PPB匯流排矩陣,可作為數據處理功能模組的系統互連,以1/2DSP子系統時脈速率執行,頻寬分別是128位元和64位元。SP2704擁有豐富的內建記憶體,除了DSP和ARM子系統內部的零等待RAM,還有一個6M的內建系統共享記憶體。共享記憶體分成12個記憶體區塊,不同的核心可以同時存取不同的記憶體區塊,真正達到了數據存取的高吞吐量、高可用性以及低延遲。

介面資源方面,SP2704的介面包括兩個10/100/1000/2500Mbps乙太網路MAC,可配置為FE(SS-SMII)或GE(SGMII);TDM處理模組透過6個串列埠進行TDM流量的多工和解多工;10Gbps x4 sRIO介面(4個3.125Gbps Lane)或者配置為兩個獨立的x1SRIO介面;PCIe介面,可接到host或SP2704設備之間互連;32位元DDR3介面工作頻率則為1,066MHz。

圖1:SP2704媒體處理器架構。
圖1:SP2704媒體處理器架構。

強化效能的關鍵──DSP子系統

StarCore SC3400e DSP子系統是其前一代SC3400的強化版本。它們的數據算術邏輯單元(DALU)都包含了4個乘加單元(MAC)。SC3400的MAC包含1個16位元*16位元的乘法器和1個40位元的加法器;而SC3400e的MAC包含4個16位元*16位元的乘法器和2個40位元的加法器,其加法器支援2個40位元複數作業數的加/減法。實數乘加運算能力提高1倍,而複數乘加運算能力則是原來的4倍。

SC3400e的實數和複數MAC運算能力可概括為:每週期可完成8個16位元實數乘加運算,性能是SC3400的2倍;每週期可完成4個16位元(16位元實部;16位元虛部)的複數乘加運算,性能是SC3400的4倍;每週期可完成8個8位元(8位元實部;8位元虛部)的複數乘加運算,性能是SC3400的8倍;每週期可完成4個32位元*16位元的實數乘加運算,性能是SC3400的2倍;每週期可完成4個(16位元*16位元+16位元*16位元+40位元)的實數點積運算。如果設置了飽和模式,A=sat{sat{A+BxC}+DxE},則性能是SC3400的2倍。

SC3400採用動態分支預測機制,可有效減少COF(Change of Flow)的延遲。例如,某條JMP指令已經在分支目標緩衝(BTB)中,實際執行只需要1個週期,而不是6個週期。

在SC3400e中,硬體循環和COF共同使用n個BTB,突破了SC3400中只支援4層嵌套的零開銷硬體循環的限制。而且,SC3400e還改進了硬體循環誤判的開銷,就算硬體循環條件不成立,開銷也只有3個週期,而在SC3400中這樣的開銷最多達6個週期;在SC3400e中,提高了短循環的執行效率,同時短循環不再佔用BTB;SC3400e支援4個返回地址暫存器,相對SC3400中的一個返回地址暫存器,減少了子程式返回的平均延遲。總體看,相對SC3400,SC3400e控制程式碼的效率提高了0.25倍。

在SC3400e中,具有線性地址修改的指令1個週期就能完成。查找表的性能提高了0.5倍。

SC3400e中改進的視訊加速指令主要包括:用於半畫素插值的插值指令,性能提高1倍;用於運動補償的Add-and-Sat指令,性能提高1倍;1個週期完成位元插入或位元抽取作業。對於位元串流與位元組之間的pack/unpack及其他位元串流處理演算法,性能提高1倍。

圖2:HD視訊編碼及解碼的多核心功能分配示意圖。
圖2:HD視訊編碼及解碼的多核心功能分配示意圖。


1 • 2 Next Page Last Page



投票數:   加入我的最愛
我來評論 - 新一代多核心媒體處理器最佳化HD視訊應...
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首