Global Sources
電子工程專輯
 
電子工程專輯 > 射頻/無線
 
 
射頻/無線  

為智慧家庭打造語音辨識系統

上網時間: 2015年09月09日     打印版  Bookmark and Share  字型大小:  

關鍵字:智慧家庭  波束成形  麥克風  遠場  語音辨識 

作者:Vineet Ganju & Trausti Thormundsson,科勝訊

在未來,不難想像人類與智慧家庭之間的溝通將會成為更有意義的互動。這樣的想法最早在1960年代的電視節目與電影中就已經出現了。無論是科幻卡通‘傑森一家’(The Jetsons)中George Jetson使用的RUDI電腦或是‘鋼鐵人’(Tony Stark)的超級電腦管家JARVIS,這些基於自然語音的人機介面(HMI)概念似乎已在轉眼間成為現實。

然而,打造一款具有優質性能的實用產品仍存在經濟挑戰。由於大部份的終端消費者並沒有像鋼鐵人所擁有的資源,產品的設計就必須能在有限的成本預算下提供最佳的語音辨識功能。特別是傳統的波束成形語音處理技術需要使用許多麥克風,才能實現典型的智慧家庭應用,然而,目前在基本的技術方面仍存在限制,例如語音與雜訊的定向限制等。因此,業界需要一款能夠僅以2個麥克風(成本考慮)實現更高性能的全新語音處理技術。

開發這樣一款基於自然語音的辨識系統面臨許多技術挑戰,包括使用精確的語音辨識引擎將機器聽到的內容翻譯成文字,以及一個綜合的自然語言處理器來判斷所說的內容意義或意圖,然後回報一個有意義的響反應或動作。但這些課題已經廣泛研究幾十年了,這裡不作過多討論。本文主要著重於遠場語音介面系統中經常被忽略但同樣至關重要的技術挑戰:在語音到達語音辨識引擎之前的語音預處理。

即使是最現代的語音辨識引擎也必須達到基本要求才能順利運作——輸入到引擎的必須是語音。雖然對於遠場語音介面系統來說這似乎是顯而易見的要求,但也是最具挑戰的要求之一。這裡的‘遠場’(far-field)指的是使用者語音距產品麥克風的距離超過0.5公尺(m)的系統。舉例來說,靠近用戶臉部的智慧型手機形成一種‘近場’(near-field)用例,但對著一臂之遙的PC或平板電腦講話或隔著房間對電視機、立體音響系統、燈光開關、自動調溫器或智慧家庭控制器講話都算是‘遠場’用例。

近場和遠場用例之間存在著許多重要的差別,這些差別產生了在近場系統中所沒有但在遠場系統中卻十分艱鉅的技術性挑戰:

大動態範圍:在遠場系統中,使用者的語音可能非常低,因為他/她與產品的麥克風相距好幾公尺,但干擾可能非常大,例如在以語音控制的揚聲器系統中有音樂播放的場合。

低訊噪比(SNR)、低直接路徑與混響路徑比(DRR)以及未知方向的語音和雜訊:遠場系統中的語音雜訊比明顯低於近場系統。隨著使用者離產品麥克風越來越遠,語音電平逐漸縮減,而背景雜訊電平則保持不變。

同樣地,相較於從使用者到麥克風的直接路徑(低DRR),從使用者嘴巴到麥克風的間接路徑——即從沿途的牆體和窗戶等表面反射路徑,可能存在更顯著的功率。使用傳統的語音處理技術和語音辨識引擎時,這種混響效應可能導致更大的問題。

最後,在遠場系統中,使用者語音相對於麥克風的方向以及雜訊相對於麥克風的方向都是未知的。在典型應用場合,雜訊甚至與使用者語音來自相同的方向。

全雙工話音互動:在許多遠場系統中,當使用者對著產品說話時,產品的揚聲器中可能正在播放音訊內容,如音樂、電影或語音提示。這時需要使用一個全雙工的回聲消除器,以便在聆聽使用者語音的同時抵消掉產品的播放輸出聲。在回聲消除器並不完全瞭解播放內容的系統中情況就更加複雜了。

在這些情況下,實現一款依然能夠穩定擷取語音的系統是一項極具挑戰性的任務。本文將介紹傳統方法為何無法在這些遠場條件下提供可接受性能的原因,然後提出一款能以極具成本效益的方式提供良好遠場性能的解決方案。

較大動態範圍

用於智慧家庭裝置的語音擷取系統必須支援較大的訊號動態範圍,從輕聲細語到響亮的音訊內容播放。對於與用戶距離大概在0.5m至3m範圍內的裝置來說,裝置麥克風的語音電平範圍大概在75dB至44dB SPL之間。對於體積較小的音訊播放裝置來說,播放內容在裝置麥克風處的SPL電平可能接近95dB。這種典型和極具挑戰性的用例對於裝置中的麥克風和類比數位轉換器(ADC)的選擇具有很重要的影響。

對於遠場應用來說,選擇具有高SNR值的麥克風非常重要。如上所述,目標語音訊號的SPL電平可能低至44dB。對於94dB SPL的1kHz語音來說,如果使用66dB SNR的麥克風,等效的雜訊層為28dB SPL,那麼最差情況下的語音與麥克風自身雜訊比為16dB。如果選擇55dB SNR的麥克風,那麼語音與麥克風自身雜訊比可能低至5dB!

ADC內部的雜訊層也很重要,因為如果應用中的ADC動態範圍不夠的話,還會造成訊號飽和。

圖1顯示兩種ADC的輸入參考雜訊,可作為麥克風增強設置值的函數。紅線顯示18位元ADC具有大約是96dB的動態範圍性能,藍線顯示24位元ADC的動態範圍大約為106dB。灰線作為參考,顯示66dB SNR、-43dBV/Pascal靈敏度的麥克風自身雜訊電平。


圖1:麥克風的自身雜訊以及來自ADC的雜訊疊加在一起形成系統的總雜訊層

圖2和圖3顯示分別使用96dB動態範圍和106dB動態範圍的ADC時的系統屬性。106dB ADC可以提供更低的雜訊層和更高的飽和點。合理的設置是針對96dB ADC使用24dB的麥克風增強值、針對106dB ADC使用12dB的麥克風增強值。在此例中,使用106dB ADC時的雜訊層更低2dB,飽和點更高12dB。雜訊層低2dB對於拾取遠場條件中的語音來說尤其重要。

考慮到峰值內容和諧振等因素,由於迴聲而在麥克風處產生的SPL電平可能達到96dB甚至更高。因此,對於具有大聲播放而體積小的裝置來說,在使用96dB或更低動態範圍的ADC時經常發生飽和問題。當在實際系統中遇到這些問題時,唯一的解決方案通常是進一步降低麥克風的增強值,但這樣做的同時會提高雜訊層。在這個例子中,麥克風增強值必須減小到12dB。然而,相較於106dB ADC,這將使雜訊層高出4.3dB。由此可知,對於遠場產品來說,首選的解決方案是使用具有高SNR的麥克風以及106dB或更高動態範圍的ADC。


圖2:表中顯示使用96dB ADC時的系統屬性


圖3:表中顯示使用106dB ADC時的系統屬性

(下一頁繼續:遠場雜訊/干擾和混響消除以及擺脫方向性約束)


1 • 2 • 3 Next Page Last Page



投票數:   加入我的最愛
我來評論 - 為智慧家庭打造語音辨識系統
評論:  
*  您還能輸入[0]個字
*驗證碼:
 
論壇熱門主題 熱門下載
 •   將邁入40歲的你...存款多少了  •  深入電容觸控技術就從這個問題開始
 •  我有一個數位電源的專利...  •  磷酸鋰鐵電池一問
 •   關於設備商公司的工程師(廠商)薪資前景  •  計算諧振轉換器的同步整流MOSFET功耗損失
 •   Touch sensor & MEMS controller  •  針對智慧電表PLC通訊應用的線路驅動器
 •   下週 深圳 llC 2012 關於PCB免費工具的研討會  •  邏輯閘的應用


EE人生人氣排行
 
返回頁首