專題研究 90學年度
1. 台灣手語辨識發聲系統
研究動機 近幾年來以” 手勢為基礎 ”的系統(gesture-based systems),被廣泛應用在不同的領域,如人機介面、虛擬實境、醫學診療及聾啞者的手語發聲系統等等。這些系統的關鍵技術在於如何能夠量測到手勢的資訊,而手勢的資訊又分為兩大類:手指的彎曲度及手部的三度空間之移動軌跡資訊。在手指彎曲的量測方面,市面上已有一些商品問世,如Cyber-glove、Data-glove及5DT-glove等,這些商品各有優缺點,有些商品的精準度與穩定度都很高,但價錢昂貴,有些商品的價錢雖能讓一般消費者接受(約6萬元台幣),但每隻手指只有一個感應器。另一方面,有關於3D軌跡追蹤器(3D tracker )的常見產品則有POLHEMUS CO.與ASCENTION CO.製造的電磁定位系統,這些產品的共同特點就是價錢十分昂貴,大約至少需台幣十多萬元。因此我們設計一低價位之手語資訊量測系統,結合”光纖手套”與”3D超音波軌跡追蹤器”,以FPGA模組為主要的系統架構。此作品可以分別量測手指彎曲度及3D軌跡資訊,最後並將此系統用來實現台灣手語發聲系統,聾啞者可以在比出手語之後,電腦就發出相關的聲音,藉此方式來與一般人溝通。
|
系統功能 本作品共結合了兩種量測介面及一個FPGA模組其功用如下: 介面一:光纖手套 如圖1所示,此手套可以量測出手指關節的彎曲程度,電腦藉由手指關節的彎曲程度,進行辨識。 介面二:超音波接發電路 利用發射用的超音波感測器發射超音波,再由接收用的感測器接收發射端之超音波,測量發射至接收為止所費之時間,並將測得的訊號透過FPGA模組傳遞到電腦,套入公式求得發射座標,進行辨識而量測出三度空間手臂之移動軌跡。超音波接發器實體如圖2及圖3所示。 介面三:FPGA模組 此模組完成電腦與量測介面之間資料的轉換。FPGA模組實體如圖4所示。 本系統主要功能為: 1.
量測手指之彎曲度變化:利用光纖手套,量測出手指的彎曲程度。 2. 量測三度空間手臂之移動軌跡:利用我們設計出的超音波接發電路,量測出三度空間手臂之移動軌
跡。 3.
資料的儲存功能:將量測出來之資訊建檔儲存。 4.
資料的分析統計特性:找出量測資訊的期望值及變異數等。 5.
資料的繪圖功能:利用軟體繪出所量測的資訊。 6. 辨識手語結果功能:利用我們找出的手指之彎曲度變化及三度空間手臂之移動軌跡,進行類神經網
路之運算,辨識出正確的手語。 7. 辨識結果發聲功能:利用我們辨識出的手語,進行辨識結果的發聲。
圖1 圖2
系統實體圖
|
專題學生 : 趙于翔 周建興 莊鈞閔 廖家慶 楊秉達 |
特殊事項 : 此作品獲得第二屆旺宏金矽獎應用組優等 |
2. 簡易聲控電腦之軟體實現
研究動機 由於聲音對於人類來說是一個自然的溝通方式,對於無法使用按鍵控制輔具的肢體障礙者而言,利用聲音來控制輔具會是一個理想的方式。因此,我們設計出一個以硬體設計為主的語音電腦[3]。在此系統中,我們對滑鼠的控制動作進行語音指令的定義,以及對鍵盤訊號作陣列式的語音指令編碼,系統便會依其語音指令的辨識結果,間接模擬滑鼠的移動、點選動作與鍵盤的對應輸入訊號,來操作電腦。 利用硬體來實現身障者之人機介面,雖然免除受限於不同作業系統所產生的相容度問題,但由於硬體的成本考量,以及將來維修上的零件取得,都可能會造成困難。於是,我們利用軟體的撰寫來實現身障者之語音電腦,其架構主要是利用語音的輸入,以動態時間校正法(Dynamic Time Warping, DTW)來進行語音的辨識,並依據辨識的結果來控制滑鼠游標的移動與點選。除此之外,加上經由視覺化鍵盤程式的撰寫,一旦接受了滑鼠的點選,便能夠模擬鍵盤上的各種按鍵訊號,進而讓身障者能夠有效的使用市面上的電腦。“簡易聲控電腦之軟體實現”的設計,目標是希望能為身障者提供一個聲控的電腦輸入,破除傳統輔具為重度身障者所帶來空間阻礙,並提供給使用者一個價格更低廉,操作獨立性更高的介面設計。
|
系統功能 本語音電腦系統可以分為三大部分,人機介面、語音辨識、I/O控制,將分別進行解說,並說明實驗的結果。 1 人機介面 此語音電腦系統的人機介面提供兩種使用的介面,其中一種介面為結合水銀開關與麥克風的耳機,另一種介面則採用“聲音”作為觸發方式。 2 語音辨識 當我們將所輸入的聲音,從類比的輸入,到完成語音特徵的萃取後(我們採用倒頻譜參數),即可以建立代表滑鼠動作的語音參考樣本,一旦輸入語音指令,便可將輸入的待測樣本與參考樣本進行辨識比對,根據比對的結果,決定滑鼠游標的對應動作。對於語音的比對,我們主要將所輸入的待測語音與參考語音進行失真度的量測,量測失真度方式,我們採用動態規劃(Dynamic Programming, DP)的方法,而將DP演算法應用於時域的語音特徵比對,則稱之為動態時間校正(Dynamic Time Warping, DTW)演算法[4]。藉著DTW的比對,我們將可以有效的進行單一語者的語音辨識。 3 I/O控制部分 在I/O控制部分,輸入語音的指令包含了滑鼠的上(up)、下(Down)、左(Left)、右(Right)、停(Stop)、左鍵(Click)、右鍵(Content)、兩次(Double Click)及拖曳(Drag)的功能,每一個語音指令都可以自行定義所代表的語音字句,但辨識率可能會由於語音指令彼此相似度的大小而有所不同。而鍵盤的輸入部分,動作機制並非以語音指令的輸入來實現所對應鍵盤按鍵的輸出,而是結合視覺化鍵盤程式與滑鼠游標的移動控制,如圖一所示,利用滑鼠游標的移動及點選,來決定將輸出何鍵。
視覺化鍵盤
語音電腦軟體實現的程式外觀
|
專題學生 : 鍾明蒼 趙于翔 |