Global Sources
電子工程專輯
 
電子工程專輯 > EDA/IP
 
 
EDA/IP  

採用基於C語言的設計流優化語音識別晶片結構設計

上網時間: 2001年07月29日     打印版  Bookmark and Share  字型大小:  

關鍵字:Frontier Design  語音識別  語音識別處理器  SRS 

據預測,市場對語音控制應用設備的需求將急劇成長,其推動力來自電話機市場。電話機將更多地採用語音命令進行控制。其他應用領域包括玩具和手持設備如計算器、語音控制的安全系統、家用電器及車載設備(立體聲、視窗、環境控制、車燈和導航控制)。本文從可再使用和優化晶片空間的角度出發介紹語音識別晶片結構設計的種種考慮,其思路有利於開發一系列其它語音識別晶片。

Remco de Zwart


Roel Janssen


Andre Pool


Frontier Design公司

Cees Heikamp


首席執行官


Columns公司

新加坡Columns公司在可攜式語音控制產品應用中起步較早,其中一個產品是執行歐元與其他歐洲貨幣之間進行兌換的“語音控制歐洲貨幣兌換器”。歐元兌換器的設計要求包括:1. 功率小,電池壽命至少為1年;2. 價格低廉,產品零售價不超過9美元;3.具有很強的靈活性,能用多種語言精確地識別並合成與說話人相關的語音;4. 整個語音控制核產品應具備可再使用的特性。

本文介紹利用Frontier Design公司設計工具來開發歐元兌換器ASIC產品的全過程。在ASIC中實現複雜DSP算法的要求通常極為苛刻,但採用Frontier的結構合成工具A|RT Designer工具能迅速優化RTL描述,該工具還允許自由選擇備用結構以優化應用設計。

藉由應用基於C語言的設計流,能在結構設計階段對新特性進行設計和硬體優化,這能降低50%的矽片面積,藉由加快 C語言原型硬體的設計,可以進一步擴展設計的性能以滿足用戶對產品規格的嚴格要求。

算法研究

Frontier Design工具利用高效能的C語言開發算法,並以C語言代替VHDL或Verilog來維護算法和系統IP。以C語言維護IP可增強算法的再使用性,並使晶片的實現高度優化。以C語言形式維護IP的原因在於,對於用HDL語言編寫的 RTL IP核,即便只做微小的修改,也要對原有IP進行重新設計;而修改C語言IP核僅僅只需修改幾行代碼。

歐元兌換器的效率在一定程度上取決於語音命令與儲存數據庫的比較以及執行命令的能力。開發出滿足最終產品要求的算法對設計的成功至關重要,因為沒有人希望看到語音控制設備不能始終如一地識別命令,人們需要算法自始至終達到98%以上的識別精密度。因此,目前面臨的難題包括檢測並清除背景雜訊、區分真實的命令字和其他雜訊(呼吸聲、微小靜電干擾聲及麥克風聲響)、確定命令字的起始和終止以及將輸入與儲存的“聲紋譜”數據庫及隨後的命令字識別(圖1)進行比較。

以下幾種先進的計算密集DSP算法適用於解決上述問題:1. Mel頻率聲譜(cepstral)系數(MFCC)算法,MFCC算法由快速傅立葉變換(FFT)功能譜、Mel定標和log ii構成;2. 反離散餘弦變換(iDCT);3. 應用多重估計和選擇算法連續識別並估計背景聲音和語音雜訊的連續雜訊電平估計程式;4. 在命令字有效期間及其附近對聲音能級實施詳盡分析的不精確和精確命令字邊界檢測算法;5. 對一系列不等長度的向量進行比較並在這些向量間比較持續時間變化的動態時間扭曲算法(dynamic time warp)。

該算法用浮點C語言編程,為了調整並優化參數,浮點C代碼的編譯和模擬速度要足夠快以檢驗算法的性能。最後,C語言代碼必須能在傳統的PC機上執行,語音識別和合成算法的性能可在實際環境中進行測試。最終的語音識別算法在450MHz奔騰機上測試,當用該公司的內部語音記錄庫進行測試時,可得到99%的識別精密度。

浮點算法向定點算法轉換

晶片實現需要將浮點算法轉換為定點算法,要保証動態範圍和精密度並防止轉換後超越動態極限。常規定點作業數的非優化範圍可能導致作業數繞回(wrap around, 如(max+1)得到(min)),並引發嚴重的削波和誤碼。定點的精確度同等重要,特別是在重复的信號處理運算中。當精確度不夠時,重复的信號處理算法將導致故障傳播和錯誤累積,最終信號可能逐漸退化成白雜訊,這對於語音控制產品來說無疑是災難性的錯誤。

Frontier工具擁有一個稱為A|RT庫的C++類庫,它是分析C代碼定點性能的工具。該類庫支援多種定點數據類型,對多重溢出行為(如飽和和繞回)提供位真建模(bit-true modeling),並提供截斷和舍入零等多重量化模型。原始的32位浮點語音識別算法支援數據以8 KHz輸入,其典型信號頻寬為32位,記憶體容量要求為幾千位元組,典型語音用戶介面的輸出以每秒幾位元組的速率測量。

代碼合併實現最終產品

分析表明,全局數據類型(global data-type)和數組只需16位(1個符號位,10個動態位,5個精密度位)就足以保持算法的精密度,而不會產生雜訊。但是,高度重复性的FFT子程式需要8個動態位、7個精密度位以及1個符號位。通常這種分析可用全局使用的19位字寬滿足任何作業的動態位和精密度位的最大要求。由於A|RT庫允許字寬動態改變,而全局數據類型定義了1個符號位、10個動態位和5個精密度位,FFT的MAC結果分配了1個符號位、8個動態位和5個精密度位,因此設計的字寬(包括匯流排)保持為16位。這樣可大大節省矽片面積。

完成定點C算法轉換後,就可用常規C++編譯器編譯C代碼,並在PC機上執行(也可在HP或SUN機器上執行)。所有信號的位真定義(bit-true definition)保証了硬體映射的正確索引以及到其他數位元件如HDL編譯器和模擬器的直接介面。將定點識別代碼與歐元兌換器應用程式的C代碼合併,就可得到完整的可執行最終代碼。

系統設計的考慮

為了達到成本目標,單片SoC解決方案是唯一可行的方案。SoC必須將如下資源整合至不超過25,000門的晶片上:1. 語音識別與合成(SRS)識別核;2. 語音識別與合成(SRS)程式和歐元兌換器代碼(最大30KB);3. 語音合成實例(最大30KB);4. 用於儲存聲紋(voice print)並用作中間結果記憶體的RAM(最大30K位元組);5. AD/DA轉換器;6. 麥克風介面;7. 揚聲器介面。

功耗也是要考慮的重要問題,電池壽命至少應為1年半。要滿足這些苛刻的功率要求,系統必須具備省電模式、在RAM中儲存聲紋、處理器具有較低的時鐘頻率以及高效率的音頻放大器。

SRS處理器結構

要給定所必需的處理和低功耗約束條件,選擇目標時鐘頻率是首要任務。根據對初始功耗和處理計算的估計,我們認為2到4MHz時鐘頻率足以滿足要求。選擇3.579 MHz是因為該頻率是NTSC視頻系統的基礎,而石英成本低廉。

該算法需要檢測並去除背景雜訊。為了從奔騰機的450MHz時鐘得到3.5MHz時鐘,並保持晶片核門數小於25,000,SRS要採用專用結構。

設計專用處理器費時費力,要用HDL語言重寫算法以獲得最佳方案。A|RT Designer工具綜合了基於控制器的結構,並直接以高效能的C語言算法為基礎。設計工程師藉由分析和優化,然後轉化為Verilog或VHDL代碼。

設計工程師使用A|RT Designer工具為語音識別算法合成適當的結構,之後進行RTL描述。該工具分配必需的數據通路資源(乘法器、加法器、ALU、I/O、RAM、ROM等),為這些資源分配算術運算,並對運算過程進行調度。同時將自動生成一個控制器、微代碼(用來控制資源分配和調度)及暫存器、多工轉換器和匯流排。

將SRS算法映射到硬體結構的關鍵參數是:以3.5MHz目標時鐘頻率執行完整的SRS代碼,且不超過最大25,000門的約束條件。使用A|RT Designer的“負載視圖(load view)”,設計工程師識別出代表性能瓶頸的幾個多周期運算(multiple cycle operation)。視圖上出現瓶頸的位置將顯示相關C代碼,設計工程師因而能識別產生瓶頸的原因並試驗備選解決方案。

最明顯的瓶頸是MEL運算中的密集FFT計算,它占據了即時處理周期80%的時間。藉由增加一個二級加法器和專用地址計算單元ACU (address calculation unit),FFT就能優化到只占原始運算周期的10%。這雖然增加了硬體設備,但付出的代價只是4,000個門,正好在硬體預算以內。即便如此改進,所用周期的總數目實在太高,難以達到3.5MHz的時鐘頻率。

進一步分析表明,可以改進對數函數的計算。當在RISC DSP (NSC CR16B)上執行C語言算法時,該運算占用大約1,000個周期,約為即時運算需求的15%。添加專用的特定應用單元ASU (application specific unit)進一步將這些功能的循環周期降至3個周期,而只增加200個門。上述結構上的改變使最小時鐘頻率為1.5MHz,少於目標頻率的一半。

對門電路數目和語音識別核功耗的優化可以降低暫存器觸發器的數目。觸發器的開銷很大(每個需要10個門電路),並消耗很大的功率。A|RT Designer的“壽命視圖(life-time view)”用來分析組成每個變量壽命的周期數目及變量被使用的頻率。藉由在RAM中儲存不常使用但長期有效的變量,即可降低暫存器的總數,進一步減小所需的矽片面積和功率。該措施節約了50%的暫存器門電路,同時為運算周期預算留下充足的開銷空間。

RAM壓縮的實現

在設計初期,我們已經明確30KB的RAM空間太緊張。參考SRS C代碼的每個聲紋譜(約為1秒鐘的語音)字占用大約1-2KB,相當於30條命令,這樣幾乎沒給中間結果SRAM留下任何空間。由於30KB的RAM占用了矽片相當大的面積,因此在矽片預算中無法添加更多的RAM(圖2)。

整個晶片使用標準的0.35μm CMOS製程製造,解決RAM空間問題的唯一解決方案是採用某些形式的語音壓縮。

聲紋數據可用兩種方法壓縮:無損壓縮或有損壓縮。目前存在幾種以現有的標準C代碼源程式為基礎,用C語言實現的無損壓縮方法。聲紋採樣數據可用作參考,最佳的無損算法可得到30%的壓縮率。採用有損壓縮,還能再壓縮20%,並且不明顯降低識別品質。有損壓縮完全可以縮放,從而獲得依賴於實際聲紋長度或詞匯表大小的可變壓縮率。由此得到的C代碼算法共500行,並對聲紋得到50%的壓縮率。下一步就可以整合語音壓縮和語音識別IP塊了。

然後只需將這500行代碼與10,000行SRS代碼合併,得到一個新功能子程式,在儲存聲紋或讀取RAM中的聲紋時調用。但程式的計算量相當大,初始計算後約需要150萬個時鐘周期,這與SRS處理所需的時間相當。幸運地是,有效時鐘頻率留出的近2.5 MHz能解決這個進程問題,而無需進一步優化。此壓縮方案將RAM需求降低到20-25KB,留出至少5KB用於處理器的中間結果記憶體之用。

揚聲器介面的實現

單電池電源管理偏置網路、數模轉換器(DAC)和模擬放大器的要占用較大的晶片面積,而直接用C語言實現脈寬調制(PWM)揚聲器驅動程式可以解決這個問題。

揚聲器如何發音?C代碼可使用該公司的A|RT Builder “C-到-HDL”轉換工具直接轉換為VHDL。然後使用Exemplar的Leonardo Spectrum加以合成,並映射到Xilinx的Virtex FPGA,採用Xilinx FPGA主板,就能將揚聲器同2個數位輸出直接相連,啟動開關,即可測聽音效了。

RTL描述的生成

當工程人員對語音識別SoC的性能和結構感到滿意時,就可使用A|RT Designer工具自動生成用於最終矽片的RTL VHDL語言描述。該工具自動為控制器生成RTL代碼及微代碼、RAM、ROM和數據通路功能。另外A|RT Designer工具在設計流的每個階段自動生成測試基準,因此原始的浮點算法模擬可與浮點C和HDL方案中的模擬媲美。VHDL模擬與原始的浮點C代碼嚴格對應,這意味著SoC具有與浮點算法相同的精密度。

最終結構

SRS ASIC所需的全部功能都整合在單晶片上(圖2)。另外所有為該SoC開發的IP都可再使用。SRS算法目前應用於CR16B RISC核的DECT電話語音識別器上。數據壓縮功能也可再使用,以進一步增強專用可變位率ADPCM音頻壓縮代碼(VADPCM)。VADPCM同樣可用於SRS核,在不利用模擬元件的條件下,PWM算法及方案仍然能實現高品質的音頻輸出。SRS實現方案本身在下一代產品中還可以修改。

[Integrated System Design]





投票數:   加入我的最愛
我來評論 - 採用基於C語言的設計流優化語音識別晶...
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首