2023年11月29日晚20點(diǎn),復(fù)旦大學(xué)附屬華山醫(yī)院神經(jīng)外科副主任醫(yī)師、博士生導(dǎo)師路俊鋒教授作為腦客中國科研第125位講者為大家?guī)碇黝}為《植入式漢語言腦機(jī)接口研究進(jìn)展》的報(bào)告。
大家好,我來自于復(fù)旦大學(xué)附屬華山醫(yī)院神經(jīng)外科,同時(shí)也是國家神經(jīng)疾病醫(yī)學(xué)中心以及復(fù)旦大學(xué)神經(jīng)外科研究所的一名神經(jīng)外科醫(yī)生。 今天我報(bào)告的很多內(nèi)容都是從一個(gè)神經(jīng)外科醫(yī)生的角度來向線上的各位專家,老師來匯報(bào),如何看待植入式語言腦機(jī)接口這項(xiàng)工作。
1、語言腦機(jī)接口的必要性
首先說明一下為什么我們?nèi)粘9ぷ鲿?huì)跟語言打交道? 因?yàn)槲覀冊(cè)谧瞿X腫瘤手術(shù)時(shí),尤其是功能區(qū)的手術(shù)時(shí),比如說語言區(qū),我們需要保護(hù)患者的語言功能。所以這時(shí)候我們就會(huì)開展一系列的語言研究,需要搞清楚語言區(qū)在哪里,語言在表達(dá)以及感知時(shí)產(chǎn)生的機(jī)制。 然后再判斷一下這些語言區(qū)跟腫瘤之間的關(guān)系,從而能夠最大程度的做到切除腫瘤時(shí),也能保護(hù)患者的語言功能。
大家都知道語言是我們?nèi)祟愃赜械囊粋€(gè)高級(jí)認(rèn)知功能之一,也是我們文明和傳承的重要載體。 但是在包括漸凍癥、腦卒中還有腦腫瘤在內(nèi)的各類重大的腦疾病都可以導(dǎo)致嚴(yán)重的語言功能障礙。
比如說像霍金這一類的漸凍癥患者,他意識(shí)完全清楚,但是他無法表達(dá)語言,無法說話。極大地影響了患者的社會(huì)生活,給我們的社會(huì)還有家庭造成了巨大的負(fù)擔(dān)。 所以我們就想著對(duì)于這些患者,一類是漸凍癥的患者,還有一類未來因?yàn)槟X卒中或者腦腫瘤、腦外傷引起的語言功能障礙患者,是不是能夠通過語言腦機(jī)接口的形式,實(shí)現(xiàn)患者語音的直接合成,這樣的話能夠極大的提高患者的交流效率。
2、語言腦機(jī)接口框架
語言腦機(jī)接口實(shí)現(xiàn)語音直接合成主要是基于以下的步驟和框架。我們希望首先能夠記錄到大腦在想象或者默念時(shí)的大腦神經(jīng)活動(dòng)。 對(duì)于語言功能障礙患者,我們希望能夠記錄到他在表達(dá)意圖時(shí),語言區(qū)的神經(jīng)活動(dòng)。之后建立這些語言神經(jīng)活動(dòng),語言內(nèi)容與神經(jīng)電活動(dòng)之間的對(duì)應(yīng)關(guān)系, 進(jìn)而解碼我們大腦的神經(jīng)活動(dòng),從而合成語音。
要想實(shí)現(xiàn)這樣的一個(gè)語言腦機(jī)接口,其實(shí)有三個(gè)重要的環(huán)節(jié)。
第一個(gè),我們希望能夠記錄到我們大腦非常準(zhǔn)確的神經(jīng)活動(dòng)。 那么就需要有一個(gè)高精度的大腦活動(dòng)記錄技術(shù)平臺(tái)。這樣的記錄技術(shù)需要有高的空間分辨率,高的時(shí)間分辨率。 因?yàn)槲覀兊恼Z言表達(dá)速度非??欤裎椰F(xiàn)在,正常的語言交流速率,在150個(gè)字到200個(gè)字每分鐘。
第二個(gè)實(shí)現(xiàn)的重要環(huán)節(jié)就是我們希望能搞清楚我們大腦語言活動(dòng)在大腦到底是怎么編碼的,它的神經(jīng)編碼機(jī)制是什么? 就是我們?cè)谡f的過程當(dāng)中,在想的過程當(dāng)中,它對(duì)應(yīng)的大腦的編碼的腦區(qū)在哪里? 它編碼上存在什么機(jī)制? 這是腦機(jī)接口一個(gè)非常重要的環(huán)節(jié)。
第三個(gè)就需要建立從大腦活動(dòng)到語音合成之間建立一個(gè)解碼技術(shù)方法。
3、國際語言腦機(jī)接口研究進(jìn)展
2013年,Nature上一篇文章首先揭示了言語過程中感覺運(yùn)動(dòng)皮質(zhì)協(xié)調(diào)嘴唇、舌頭、下頜、喉部等構(gòu)音器官運(yùn)動(dòng)的時(shí)空編制、
2018年,Cell上一篇文章揭示喉部運(yùn)動(dòng)皮質(zhì)如何在言語/歌唱過程中編碼音高的變化。
2019年,Nature上一篇文章首先報(bào)道了利用高密度ECoG實(shí)現(xiàn)了英語的皮質(zhì)腦電-語音合成。
2021,2022年,在NEJM、Nature Communication上,又被報(bào)道首次從癱瘓、部分發(fā)音的患者大腦活動(dòng)中直接解碼出完整的句子。
最新的2023年,他們又在另外一例腦干中風(fēng)的患者身上植入一個(gè)電極,實(shí)現(xiàn)了實(shí)時(shí)語言的解碼。 這時(shí)他們的詞匯量擴(kuò)大到了1024個(gè)單詞。 中位詞誤率在25.5%,在線的合成速度達(dá)到了78個(gè)單詞/分。 同時(shí)采用了虛擬化身的技術(shù),來模仿患者受傷前的音色。
同期還發(fā)表的還有來自于斯坦福的Krishna和Jaimie團(tuán)隊(duì)。他們通過植入4個(gè)Utah array來解碼語音,詞匯量擴(kuò)大到125000個(gè)單詞,一個(gè)非常大的進(jìn)步了;詞誤率也是在23.8%,在線合成速度達(dá)到了62單詞/分。
4、漢語的腦機(jī)接口合成
這些以往研究工作主要是處理英文這種語言,那么漢語作為世界上使用人口最多的語言該怎么利用腦機(jī)接口合成呢?我們知道漢語有一個(gè)非常重要的特色就是聲調(diào),可以通過四個(gè)不同的聲調(diào)來表達(dá)不同的語義。此外漢語還是單音節(jié)的字,我們通過單音節(jié)字加上四個(gè)聲調(diào),可以極大的提高我們表達(dá)的效率。
那么我們漢語的聲調(diào)是如何產(chǎn)生和編碼的呢? 聲調(diào)產(chǎn)生有這樣一個(gè)生理學(xué)基礎(chǔ),它是通過控制我們的聲帶來產(chǎn)生的。 產(chǎn)生聲調(diào)時(shí),我們的聲帶首先需要閉合,聲帶閉合后,氣流通過肺沖出我們的聲帶之后去進(jìn)行發(fā)聲。 如果需要讓我們的聲音升高,聲帶就需要拉長,同樣的縮短就可以使我們的聲調(diào)降低。
既往的研究發(fā)現(xiàn),大腦里面確實(shí)存在這樣的功能區(qū)。在英語的研究當(dāng)中發(fā)現(xiàn),我們大腦里面有背側(cè)的喉部運(yùn)動(dòng)區(qū)和腹側(cè)的喉部運(yùn)動(dòng)區(qū)兩個(gè)腦區(qū)。 那么我們大腦的喉部運(yùn)動(dòng)區(qū)是如何精準(zhǔn)控制我們的聲帶肌肉,調(diào)節(jié)音高的變化,進(jìn)而產(chǎn)生了我們漢語的四個(gè)聲調(diào)?
所以我們就有了以下三個(gè)科學(xué)問題:
第一個(gè),在聲調(diào)產(chǎn)生的時(shí)候,大腦編碼了什么聲學(xué)或者語音特征?
第二個(gè),產(chǎn)生音調(diào)的時(shí)候存在幾種控制機(jī)制,單向的音高變化?還是雙向的升高和降低?還是四個(gè)聲調(diào)單獨(dú)產(chǎn)生?
第三個(gè),聲調(diào)產(chǎn)生的編碼腦區(qū)在哪里?
以上為本期直播部分內(nèi)容,觀看本期及往期完整視頻內(nèi)容可掃描下方二維碼觀看。
掃描二維碼
觀看完整視頻
END
往期精彩節(jié)選
周東升:抑郁癥神經(jīng)調(diào)控進(jìn)展及思考