Nature重磅:華裔科學家成功解碼腦電波,AI直接從大腦中合成語音

” 
———–

來自加州大學舊金山分校的科學家創造了更接近能夠恢復說話功能的腦機接口(brain–computer interface, BCI)。

腦機接口旨在幫助癱瘓患者直接從大腦中“讀取”他們的意圖,并利用這些信息控制外部設備或移動癱瘓的肢體,這項技術目前能夠使癱瘓的人每分鐘最多能打出8個單詞,而加州大學舊金山分享的研究人員開發了一種方法,使用深度學習方法直接從大腦信號中產生口語句子,達到150個單詞,接近正常人水平。

                
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

 

只要靜靜坐著,世界就能聽到你的聲音,這樣的畫面你可曾想象過?

是的,不必動手,也不必開口,只要你的腦波流轉,AI就能以每分鐘150個詞的速度幫你說出心聲。

Nature上最新發表了一篇論文,科學家們設計了一種新的可以將大腦信號轉換成語言的裝置,不需要勞動任何一塊肌肉,深度學習就能直接讀懂大腦,解碼腦中所想,實現流暢交流。

 

 

如何做到

研究團隊來自加州大學舊金山分校,神經外科教授Dr. Edward Chang等人試圖將大腦中的神經活動轉換成語音,以造福因為神經損傷而失去交流能力的人。

說話這件事其實并沒有想象中那么簡單,看似只是動動嘴,事實上卻是對聲道咬合結構精準、快速的多維度控制。

研究人員選擇了深度學習方法。

為了進行試驗,專家們招募了五名在醫院接受癲癇治療的志愿者。

神經解碼的第一步是從高密度皮層活動中提取相關信號特征。志愿者們說了上百句話,而通過植入性大腦皮層電圖(ECoG),研究人員可以跟蹤控制語言和發音的大腦區域的活動,并將這些活動與志愿者說話時嘴唇、舌頭、喉部和下顎的微妙運動聯系起來,然后將這些運動學特征翻譯成口語句子。

研究人員采用bLSTM(bidi-rectional long short-term memory)循環神經網絡來破譯ECoG信號表達的運動學表征。

接著用另外一個bLSTM解碼先前破譯的運動學特征中的聲學特征。

聲學特征是能從語音波形中提取的頻譜特征,因此用解碼后的信號就可以合成出語音波形。

在這個過程中,兩個神經網絡都會被投喂訓練數據,以提高它們的解碼性能。


對比志愿者說話的頻譜圖和大腦信號合成的頻譜圖,可以看到它們已經非常接近了。

研究者們讓以英語為母語的人聽了聽合成的語音,結果表明,至少有70%的虛擬語言是可以被理解的。

 

有何提高

腦波轉語音已經不是什么新鮮事了,這篇文章能登上Nature,自是有過人之處。

這個新的裝置每分鐘能生成 150 個單詞,接近人類的自然語速。

要知道已有的語音合成腦機接口每分鐘只能生成 8 個單詞,使用者也能用它們來表達自己的意思,但那遠遠稱不上是“人類交流”。

想象一下,倘若霍金健在,在這種技術的幫助下,他可能再也不用艱難地活動臉頰上的肌肉來拼出單詞,AI能真正幫助他重新“開口”,傳播智慧。

“這是一項艱巨的工作,它將我們推上了語言恢復方面的一個新臺階。”神經學家Dr. Anthony Ritaccio這樣評價。

 

網友反應

論文一出,驚嘆聲一片。

有網友稱贊這是ECoG領域非常有價值的一個結果,并且也給未來的實際應用打開了新的大門:

還有網友已經迫不及待地開始暢想未來:

如果將來這項技術能被放入耳機這樣的可穿戴設備,那我們就能以最快的速度在手機上打字了!這種可能性實在是鵝妹子嚶!

也有一些負面的聲音:

我們總有法子讓你開口的。

嗯…不過事實上這項技術只會在你想開口時捕捉相應的腦電波。

必須說明的是,這項技術使用的ECoG電極陣列需要通過開顱手術來放置到大腦之中,對于飽受疾病、意外之害而失去語言能力的患者來說是福音天降,但更大范圍的應用還有很長的路要走。

論文鏈接:https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf

摘自:世界科技創新論壇

国产在线精品亚洲综合网|2019天天爽日日拍视频|新天堂2-暖暖视频 免费 日本最新更新