專題研究  90學年度

 

1. 台灣手語辨識發聲系統

研究動機

    近幾年來以手勢為基礎的系統(gesture-based systems),被廣泛應用在不同的領域,如人機介面、虛擬實境、醫學診療及聾啞者的手語發聲系統等等這些系統的關鍵技術在於如何能夠量測到手勢的資訊,而手勢的資訊又分為兩大類:手指的彎曲度及手部的三度空間之移動軌跡資訊。在手指彎曲的量測方面,市面上已有一些商品問世,如Cyber-gloveData-glove5DT-glove等,這些商品各有優缺點,有些商品的精準度與穩定度都很高,但價錢昂貴,有些商品的價錢雖能讓一般消費者接受(6萬元台幣),但每隻手指只有一個感應器。另一方面,有關於3D軌跡追蹤器(3D tracker )的常見產品則有POLHEMUS CO.ASCENTION CO.製造的電磁定位系統,這些產品的共同特點就是價錢十分昂貴,大約至少需台幣十多萬元。因此我們設計一低價位之手語資訊量測系統,結合光纖手套3D超音波軌跡追蹤器,以FPGA模組為主要的系統架構。此作品可以分別量測手指彎曲度及3D軌跡資訊,最後並將此系統用來實現台灣手語發聲系統,聾啞者可以在比出手語之後,電腦就發出相關的聲音,藉此方式來與一般人溝通。

 

系統功能

本作品共結合了兩種量測介面及一個FPGA模組其功用如下:

 介面一:光纖手套

如圖1所示,此手套可以量測出手指關節的彎曲程度,電腦藉由手指關節的彎曲程度,進行辨識。

介面二:超音波接發電路

利用發射用的超音波感測器發射超音波,再由接收用的感測器接收發射端之超音波,測量發射至接收為止所費之時間,並將測得的訊號透過FPGA模組傳遞到電腦,套入公式求得發射座標,進行辨識而量測出三度空間手臂之移動軌跡。超音波接發器實體如圖2及圖3所示。

介面三:FPGA模組

此模組完成電腦與量測介面之間資料的轉換。FPGA模組實體如圖4所示。

 本系統主要功能為:

1. 量測手指之彎曲度變化:利用光纖手套,量測出手指的彎曲程度。

2. 量測三度空間手臂之移動軌跡:利用我們設計出的超音波接發電路,量測出三度空間手臂之移動軌

                                跡。

3. 資料的儲存功能:將量測出來之資訊建檔儲存。

4. 資料的分析統計特性:找出量測資訊的期望值及變異數等。

5. 資料的繪圖功能:利用軟體繪出所量測的資訊。

6. 辨識手語結果功能:利用我們找出的手指之彎曲度變化及三度空間手臂之移動軌跡,進行類神經網

                      路之運算,辨識出正確的手語。

7. 辨識結果發聲功能:利用我們辨識出的手語,進行辨識結果的發聲。

                        

                         圖1                                    圖2

                 

圖3                                    圖4

系統實體圖

 

專題學生 : 趙于翔  周建興  莊鈞閔  廖家慶  楊秉達

特殊事項 : 此作品獲得第二屆旺宏金矽獎應用組優等

 

 

 

2. 簡易聲控電腦之軟體實現

研究動機

    由於聲音對於人類來說是一個自然的溝通方式,對於無法使用按鍵控制輔具的肢體障礙者而言,利用聲音來控制輔具會是一個理想的方式。因此,我們設計出一個以硬體設計為主的語音電腦[3]。在此系統中,我們對滑鼠的控制動作進行語音指令的定義,以及對鍵盤訊號作陣列式的語音指令編碼,系統便會依其語音指令的辨識結果,間接模擬滑鼠的移動、點選動作與鍵盤的對應輸入訊號,來操作電腦。

  利用硬體來實現身障者之人機介面,雖然免除受限於不同作業系統所產生的相容度問題,但由於硬體的成本考量,以及將來維修上的零件取得,都可能會造成困難。於是,我們利用軟體的撰寫來實現身障者之語音電腦,其架構主要是利用語音的輸入,以動態時間校正法(Dynamic Time Warping DTW)來進行語音的辨識,並依據辨識的結果來控制滑鼠游標的移動與點選。除此之外,加上經由視覺化鍵盤程式的撰寫,一旦接受了滑鼠的點選,便能夠模擬鍵盤上的各種按鍵訊號,進而讓身障者能夠有效的使用市面上的電腦。簡易聲控電腦之軟體實現的設計,目標是希望能為身障者提供一個聲控的電腦輸入,破除傳統輔具為重度身障者所帶來空間阻礙,並提供給使用者一個價格更低廉,操作獨立性更高的介面設計。

 

系統功能

  本語音電腦系統可以分為三大部分,人機介面、語音辨識、I/O控制,將分別進行解說,並說明實驗的結果。

1 人機介面

           此語音電腦系統的人機介面提供兩種使用的介面,其中一種介面為結合水銀開關與麥克風的耳機,另一種介面則採用聲音作為觸發方式。

2 語音辨識

當我們將所輸入的聲音,從類比的輸入,到完成語音特徵的萃取後(我們採用倒頻譜參數),即可以建立代表滑鼠動作的語音參考樣本,一旦輸入語音指令,便可將輸入的待測樣本與參考樣本進行辨識比對,根據比對的結果,決定滑鼠游標的對應動作。對於語音的比對,我們主要將所輸入的待測語音與參考語音進行失真度的量測,量測失真度方式,我們採用動態規劃(Dynamic Programming DP)的方法,而將DP演算法應用於時域的語音特徵比對,則稱之為動態時間校正(Dynamic Time Warping DTW)演算法[4]。藉著DTW的比對,我們將可以有效的進行單一語者的語音辨識。

3  I/O控制部分

I/O控制部分,輸入語音的指令包含了滑鼠的上(up)、下(Down)、左(Left)、右(Right)、停(Stop)、左鍵(Click)、右鍵(Content)、兩次(Double Click)及拖曳(Drag)的功能,每一個語音指令都可以自行定義所代表的語音字句,但辨識率可能會由於語音指令彼此相似度的大小而有所不同。而鍵盤的輸入部分,動作機制並非以語音指令的輸入來實現所對應鍵盤按鍵的輸出,而是結合視覺化鍵盤程式與滑鼠游標的移動控制,如圖一所示,利用滑鼠游標的移動及點選,來決定將輸出何鍵。

 

視覺化鍵盤

 

語音電腦軟體實現的程式外觀

 

專題學生 : 鍾明蒼  趙于翔