我們都聽說過,捐血、捐器官可以救人,但大家有聽過「捐聲音」可以改變他人的生活嗎?根據來自美國的VocaliD計劃組織估計,全世界有數千萬人必須倚賴電腦聲音來溝通,而單是美國就有250萬人口。但是電腦聲音的選擇性少,也不同於每個人天生說話的聲音就有獨特的特性。在沒有面對面或見到對方長相的時候,不論是家人或熟識的朋友,更或是電視名人歌手,我們都可以透過聲音認出他們,可惜那些患有言語功能障礙的人,卻無法擁有這樣的環境。
聲音是如何產生的?
Image may be NSFW.
Clik here to view.
我們人類身體構造,產生聲音的來源是喉頭(larynx)又稱音箱(voice box)所產生的共鳴聲響,每個人都有一個反映其生理結構的獨特「聲源」,這個聲源經過聲道(即頭與頸部之間的喉腔)的過濾,藉由喉腔形狀的變化產生子音和母音。有些人由於有神經傳導語言障礙,所以無法控制他們的喉腔過濾聲音,像是患有帕金森氏症和腦性麻痺的病人,或是因為癱瘓或手術而造成無法發音的病人,例如英國傑出物理學家史蒂芬·霍金(Stephen William Hawking)。
客製化的合成聲音
而VocaliD計劃宗旨即為設計個性化的合成聲音,使那些患有重度語言障礙的人們,可以使用適合自己的身型與個性的聲音。這個計劃是由Rupal Patel博士與她的學生和她的合作者—智能語音專家Tim Bunnell博士,一直努力了好幾年所創辦,在近年來終於開發出了能夠建構獨特聲紋的數據算法成果。
這項計劃的關鍵,是仰賴於聲音捐贈者與目標說話者的元素匹配程度,其中包括目標說話者的最基本發音特性,其次是性別、年齡、聲音強弱、外表特徵。專家使用捐贈者所錄下的數千個句子製做出新的聲音,錄音過程要花上2至3小時,捐贈者要讀出短句或不斷重複讀,讓錄音內容包含英語中所有聲音的組合。當錄音完成後,專家會對這些錄音做語法分析以填入數據庫,Patel博士將這個數據庫稱之為「聲音銀行」。
Image may be NSFW.
Clik here to view.
在這樣一系列的研究、實驗,到最後帶進現實成功實踐的過程中,Patel博士體悟到,每一位重度語言障礙的患者想要的不是一個完美的聲音,他們只是希望聽到他們的聲音。VocaliD的計畫其實還正處於早期階段,專家們正在努力改善錄音的流程,也許能透過網絡軟件或手機App,讓捐贈者可以在遠端的安靜地點錄下他們的聲音;另外他們也正在努力籌集資金,建設基礎設施來存儲所有捐贈者的聲音。VocaliD的目標是在2020年收集100萬個語音樣本,創造世界上最大的聲音銀行。Patel博士希望:讓合成的聲音,像指紋一樣獨一無二(Synthetic voices, as unique as fingerprints.)。
Image may be NSFW.
Clik here to view.
延伸閱讀:www.vocaliD.org
撰稿:許書瑄
Image may be NSFW.Clik here to view.
