IT之家 4月11日消息,加州大學伯克利分校與舊金山分校的研究團隊在腦機接口(BCI)領域取得突破,成功開發(fā)出一種技術,幫助重度癱瘓患者恢復自然語音表達。該技術利用人工智能(AI)模型,將大腦信號實時轉化為可聽語音,解決傳統(tǒng)語音神經假體延遲問題。
加州大學伯克利分校與舊金山分校的研究團隊開發(fā)了一種創(chuàng)新方法,通過捕捉大腦運動皮層信號,利用AI算法實時解碼并生成語音。
研究共同負責人、伯克利分校電氣工程與計算機科學系助理教授 Gopala Anumanchipalli 表示,這種“直播”(streaming)方法借鑒了類似Alexa和Siri的語音解碼技術,能顯著縮短從大腦意圖到語音輸出的時間。實驗中,患者Ann無需發(fā)聲,僅通過“默想”句子即可生成接近自然的語音。
新技術的核心在于解決傳統(tǒng)BCI語音解碼的延遲問題。以往技術單句解碼需約8秒,而新方法能在患者產生說話意圖后1秒內輸出首個音節(jié)。
研究共同第一作者、伯克利分校博士生Kaylo Littlejohn介紹,團隊通過AI預訓練文本轉語音模型,模擬患者受傷前的聲音,讓輸出更具個性化。實驗還驗證了該技術對多種腦信號采集設備(如微電極陣列和面部肌電傳感器)的兼容性,顯示其廣泛適用性。
研究團隊進一步測試了算法的泛化能力。他們讓患者Ann嘗試“說出”26個未包含在訓練數(shù)據(jù)中的單詞,如NATO音標字母表中的“Alpha”、“Bravo”等。
結果顯示,模型仍能準確解碼,證明其不僅依賴模式匹配,而是真正學習了語音的構成規(guī)律。另一位共同第一作者、博士生Cheol Jun Cho表示,這種能力為未來提升語音表達的語氣、音調等特征奠定了基礎。
患者Ann反饋,相比2023 年的早期實驗,新方法讓她感到更強的控制感和自我表達能力。研究團隊計劃繼續(xù)優(yōu)化算法,增強語音的自然度和情感表達,同時探索如何將技術應用于更廣泛的臨床場景。