引言:告別鼠標鍵盤,解鎖未來人機交互的“黑科技”
隨著科技的飛速發展,人類與機器的交流方式也在不斷革新。最初,我們通過鍵盤和鼠標與計算機互動,后來觸摸屏和語音助手的出現讓人與設備的聯系變得更加直觀和便捷。然而,隨著虛擬現實(VR)和增強現實(AR)等新技術的普及,傳統的交互方式逐漸顯得局限,特別是在動態的場景中,是否可能有一種“超自然”的方式來直接控制設備?
近日,Meta Reality Labs團隊在《Nature》發布了題為“A generic non-invasive neuromotor interface for human-computer interaction”的文章,報告了他們的新研究成果:一種基于深度學習的非侵入式肌電信號通用解碼模型。讓你無需觸摸、無需鍵盤、無需鼠標,僅憑肌肉的微弱電信號就能實現與計算機的自然互動;這項研究的核心除了利用一種多通道的肌電采集手環外,還有著背后強大的深度學習解碼模型,使得這一技術具備了跨人群的普適性,真正實現了“即插即用”的人機交互體驗。

圖 1. 論文信息
從手勢到文字輸入,如何實現神經意圖的解碼?
團隊使用了表面肌電信號(sEMG)技術,通過一個佩戴在手腕上的小巧設備,捕捉肌肉發出的電信號,然后通過深度神經網絡將這些信號轉化為計算機可識別的指令。簡而言之,它讓你用肌肉信號來“指揮”計算機工作。
這一技術的實現依賴于硬件與算法的創新融合,其中Meta開發的sEMG干電極手腕帶發揮了重要作用,這款腕帶內嵌16路通道傳感器,能夠高頻率、低噪聲地收集手腕、前臂和手部的肌電信號,并通過專門的算法實時解碼這些信號,精準還原用戶的動作意圖。最令人激動的是,Meta的研究團隊沒有依賴傳統的個體校準,而是通過大規模的數據收集系統(招募了超過6000名受試者),通過這些大規模多樣化的數據,研究者開發出多個神經網絡結構的通用模型,分別用于三類任務:LSTM用于連續控制,卷積+LSTM結構用于手勢識別,Conformer結構用于復雜的手寫解碼。能夠適用于不同性別、膚色、手腕大小的用戶。換句話說,無論是誰,戴上這款設備后,都能實現流暢的手勢識別、光標控制甚至無筆手寫輸入。

圖 2. 用于腕部(sEMG)高通量記錄和實時解碼的硬件和軟件平臺
如圖2所示,Meta團隊的硬件平臺為一個基于多通道sEMG干電極腕帶的高通量記錄和實時解碼的硬件和軟件平臺,它具有48個電極針,這些電極配置為16路雙極通道,并且沿著前臂的近遠端方向排列。平臺能夠通過藍牙無線傳輸實時采集信號,并將這些肌電信號傳輸給計算機進行解碼。圖2a為sEMG數據收集概述。參與者佩戴sEMG腕帶,系統提示參與者進行手部和手腕的各種運動。網絡攝像頭捕捉他們的手部和手腕(不包括面部)。在一天內的兩次實驗之間,參與者會取下sEMG腕帶并稍微調整位置,以便能夠在不同的記錄位置之間進行泛化。圖2b顯示了這款sEMG手腕帶的硬件配置,并展示了其如何通過高頻采樣和低噪聲處理,捕捉微弱的肌肉電信號。該設備不僅舒適便于佩戴,還可以在一天內的不同實驗階段輕松拆卸并重新調整,以便在多個不同的佩戴位置下保持一致的信號質量。圖2c則展示了參與者在三項任務(1D連續控制、離散手勢識別和無筆手寫輸入)中佩戴設備的實驗示意圖,其中手腕的運動和手勢活動通過設備實時記錄,結合運動捕捉系統和行為對齊算法精確標定信號時間戳,為后續的深度學習模型訓練提供了豐富的標簽數據。
圖2d和2e展示了在離散手勢任務中,通過手腕手指的細微動作(如拇指點擊、食指捏合等)產生的肌電信號特征。這些信號的時空活動模式被捕捉并高頻率記錄,展現了設備在動態解碼過程中的穩定性和高效性。
相較傳統BCI方法:通用性強,跨用戶泛化能力超乎想象!
這項技術的核心之一就是它強大的跨用戶泛化能力。傳統的肌電解碼系統通常需要針對每個用戶進行單獨的訓練和調校,這不僅消耗時間,還限制了系統的普適性。而Meta的這項技術成功解決了這一問題。基于大量跨人群的訓練數據,該系統能夠自動識別用戶的肌肉信號,并準確進行手勢解碼和文字輸入。這意味著,所有人都可以無縫對接,實現高效的人機互動。
在實驗中,盡管每個用戶的肌肉結構和運動方式都有差異,但模型在從未接觸過的用戶身上依然能夠達到超過90%的手勢識別準確率,并且手腕角速度解碼誤差控制在每秒13度以內。這標志著跨人群的泛化能力,突破了以往肌電接口普遍存在的適配難題(如圖3所示)。

圖3. 單一參與者和多參與者模型的泛化性能
在實驗中,研究者展示了模型在不同用戶和不同任務下的解碼能力,結果令人驚嘆。圖3a展示了不同參與者在執行四種離散手勢(如拇指滑動、食指捏合等)時的肌電信號差異。每一行代表一種手勢的信號,顏色區分了不同的參與者;圖3b則使用t-SNE降維方法展示了跨參與者的sEMG激活,每個點代表一個手勢實例。可以看到,盡管每個參與者的肌電信號存在差異,模型依然能較好地識別和區分不同的手勢;圖3c和3d展示了單一參與者模型和跨參與者模型在同一參與者和不同參與者上的泛化能力。結果表明,隨著訓練數據的增加,單一用戶模型的性能逐漸提升,但跨用戶泛化能力在數據量增加時仍然有限,這也反映出跨用戶解碼的挑戰;通過增加訓練數據的參與人數和模型的參數量,模型的表現得到了顯著提升。圖3e展示了腕部角度預測任務、圖3f展示了手勢分類任務,以及圖3g展示了手寫字符解碼任務的解碼誤差隨訓練集大小的變化。可以看到,隨著參與人數的增多,解碼誤差隨之減少,并且呈現出冪律關系,這表明大數據量和模型規模對解碼性能的提升起到了重要作用;具體來說,圖3e、3f和3g中的曲線擬合結果表明,在每個任務中,隨著參與人數的增加,模型的性能呈現出冪律縮放,并且更大的模型參數量會進一步提升性能。圖3e-g黑色和藍色的標記展示了不同訓練集大小和模型規模對錯誤率和分類準確率的影響。對于離散手勢識別和手寫輸入,數據量的增多使得分類錯誤率降低到可接受水平,表現出系統在跨人群應用中的潛力。
從實驗室到現實:足以替代現有的輸入方式
Meta的技術已經不僅僅停留在實驗室里,研究團隊通過閉環任務測試,讓用戶在短時間內掌握如何通過肌電信號完成各種操作。圖4展示了三種不同的閉環任務,每個任務都驗證了肌電信號解碼系統在實際應用中的表現。具體包括“
1.連續控制(圖4a):用戶能夠通過手腕控制光標移動,以0.66次/秒的速度完成目標選擇;
2.離散手勢識別(圖4b):手勢如拇指滑動、食指捏合等可以0.88次/秒識別;
3.手寫輸入(圖4c):用戶通過手腕上的肌肉信號輸入20.9詞/分鐘,幾乎接近常見的手機打字速度。
盡管與傳統的輸入設備(如MacBook觸控板和Nintendo Joy-Con游戲控制器)相比,性能還有差距,但其便攜性、隱形交互和無需額外設備的優勢,足以在許多場景中替代現有的輸入方式。

圖4. 通用sEMG解碼模型能夠在不同的交互中實現閉環控制
圖4d展示了連續控制任務中光標任務中的目標獲取時間,這反映了系統在任務中的響應速度;盡管手腕運動控制光標時,系統的表現略低于使用MacBook觸控板的性能,但解碼系統在任務中的表現依然,并且比標準任務設備提供了更高的便攜性和隱形交互優勢;圖4e則展示了任務中光標提前退出目標的試驗結果,該圖表明提前退出的問題會隨著任務熟練度的提高而逐漸減少;圖4f展示了手勢任務中的檢測準確率,結果顯示系統識別手勢的準確率相當高;圖4g則展示了任務中的手勢完成率,與使用游戲手柄的結果進行了對比。可以看到,手勢完成率隨著訓練和任務熟練度的提升不斷提升,表明系統可以通過更多的數據訓練和持續優化達到非常高的準確率;圖4i和4j展示了手寫解碼任務中的兩項重要性能指標:字符錯誤率(CER)和每分鐘字數(WPM)。在在線字符錯誤率(CER)中,系統的表現接近甚至優于傳統手寫輸入設備,而每分鐘字數(WPM)的速度也接近開放環路手寫速度,說明這一技術在實際文本輸入中具有很大的應用潛力。
個性化微調:深度學習揭秘神經生理活動模式
如圖5所示,為了進一步優化系統的個性化交互體驗,研究人員在通用模型的基礎上進行了個性化微調。通過僅使用20分鐘的個體數據,手寫識別的性能可以平均提高約16.6%。這種“輕量級微調”對識別效果較差的用戶尤為有效,能夠顯著改善他們的使用體驗,因此是提升長尾用戶體驗的一個重要策略。

圖5. 通用sEMG手寫模型的個性化可提高性能
圖5a展示了個性化微調前后,模型在兩個不同參與者(左側和右側)的手寫預測的變化。通過個性化微調,模型的預測準確性顯著提高,綠色字體表示正確字符,紫色字體表示錯誤字符。通過這種微調,CER顯著下降,尤其是在高錯誤率參與者中,表現得尤為顯著;
圖5b展示了個性化數據量對模型性能的影響。實驗結果表明,隨著個性化數據量的增加(從1分鐘到20分鐘不等),字符錯誤率(CER)顯著降低,表明個性化微調可以有效改善模型在實際任務中的表現。圖中使用虛線擬合的“冪律關系“顯示,數據量的增加與模型性能提升之間存在冪律增長的關系;圖5c進一步展示了個性化微調在減少離線CER方面的表現,實驗結果表明,個性化微調可大幅度降低CER,尤其在數據量較大時,性能提升尤為顯著;
圖5d展示了個性化微調對于訓練參與者數量和CER降低之間的關系,說明個性化微調可以彌補模型在大規模訓練時可能存在的不足,且較少的數據量就能產生顯著的性能提升;圖5e展示了當每個測試參與者使用20分鐘個性化數據微調時,CER的相對減少情況。圖中的綠色對角線表示通過個性化微調獲得的性能提升;圖5f展示了個性化微調后的CER下降與初始模型CER之間的相關性。研究發現,初始錯誤率較高的參與者,從個性化微調中受益大,性能提升也更加顯著。
更重要的是,研究人員對解碼網絡的中間層進行了可視化分析,發現該網絡能夠自動從原始的sEMG信號中學習到具有生理意義的時空模式,且其濾波器響應與真實的MUAP信號高度匹配(如圖6)。這種從神經電信號中提取生理特征的能力,為深度學習模型在非侵入式神經接口任務中的成功應用奠定了基礎。

圖6. 提取和驗證推測的單肌纖維動作電位(MUAPs)
圖6a-b為誘發推測的MUAPs,實驗參與者依照一系列指令執行各種低強度的肌肉收縮,并在每次收縮后進行短暫的休息期。在每個收縮期和休息期內,參與者都能夠通過視覺反饋觀察其(EMG)的原始信號,從而幫助他們產生稀疏且空間集中的肌電信號。具體來說,圖6a展示了休息時期的EMG信號,而圖6b則展示了運動期間的EMG信號。每個運動周期持續10秒,并且每個周期重復3次。圖中的灰色垂直標尺表示20μV,用于指示肌電信號的振幅。通過在每個通道的高通濾波EMG信號上進行峰值檢測,研究人員能夠識別并提取MUAPs。這些MUAPs被用于構建時間序列,進而計算其瞬時發放率,通過事件的間隔時間(ISI)反算。圖6c顯示了不同運動(如:食指屈曲(IF)、中指屈曲(MF)、小指伸展(PE)、拇指外展(TAb)、拇指伸展(TE)、腕部旋前(WP))的平均瞬時發放率,計算方式為在每個提示的休息或運動周期內,檢測到的MUAP數量除以該周期的總時長。圖6d展示了每次運動期間發放率的變異系數(CoV),該系數表示肌電信號中事件間隔的標準差與均值之比。通過計算變異系數,研究者能夠量化每次運動期間的神經活動的穩定性。
圖6e展示了在各個運動周期中提取的多通道MUAP波形。這些波形代表了在運動過程中誘發的單肌纖維動作電位。為方便可視化,所有波形都進行了標準化處理,使得每個MUAP的歸一化到99.95百分位。圖中細線代表單次MUAP波形,而粗線則是每個運動類別的MUAP波形的中位數,長度為20ms。垂直標尺表示20μV。圖6f顯示了每個運動的MUAP空間分布,該空間分布是通過每個通道波形的峰-峰值構建的。圖中的實線代表均值,而陰影區域表示標準誤差。這些空間分布圖顯示了MUAP信號的空間模式,表明不同運動對應不同的神經活動模式。
這一系列的實驗表明,Meta的肌電信號解碼系統已經具備了實際應用的能力,能夠在復雜的互動任務中,實時、穩定地解碼肌電信號,并實現閉環控制。系統不僅能在實驗室環境中表現出色,實際應用中也能做到精準、高效,展示了其在虛擬現實、移動計算、智能設備以及輔助技術等多個領域的潛力。
未來展望:無縫連接,超越人類與機器的界限
與以往依賴侵入式設備或特定個體調試的腦機接口相比,本研究在非侵入式的肌電接口上實現了出色的跨人群泛化性能,代表著人機交互和腦機接口技術發展的重要突破。因此,這項技術代表了“人類與計算機更直接的連接”這一夢想的實現。未來,我們可能不再依賴鼠標、鍵盤、觸摸屏,甚至語音助手,而是直接通過肌肉信號與計算機互動。在VR/AR設備中,肌電接口將取代現有的手柄控制,實現更加自然的動作捕捉和虛擬交互。對于肢體受限的用戶,肌電解碼模型將成為無障礙輸入的利器,大大提升殘疾人士的生活質量。未來的智能手表、眼鏡等設備,或許會直接內置這種技術,作為主流的交互方式。這一切的實現,意味著我們將突破人與機器的傳統界限,迎接一個充滿可能性的未來,在這個未來中,思想與行動的邊界將不再存在,一切都能通過最自然的方式與科技對話。
原文鏈接
Kaifosh, P., Reardon, T.R. & CTRL-labs at Reality Labs. A generic non-invasive neuromotor interface for human-computer interaction. Nature (2025).
研究團隊介紹
研究團隊隸屬于Meta的Reality Labs,通訊作者為Thomas Reardon,他是CTRL-labs的執行官及聯合創始人。在CTRL-labs被收購后,Thomas Reardon目前Meta Reality Labs的神經接口小組。作者為Patrick Kaifosh,CTRL-labs的聯合創始人,現任Meta Reality Labs的科學家。
關于維拓啟創
維拓啟創(北京)信息技術有限公司成立于2006年,是一家專注于腦科學、康復工程、人因工程、心理學、體育科學等領域的科研解決方案供應商。公司與國內外多所大學、研究機構、企業長期保持合作關系,致力于將優質的產品、技術和服務帶給各個領域的科研工作者,為用戶提供有競爭力的方案和服務,協助用戶的科研工作,持續提升使用體驗。
相關產品


免責聲明
客服熱線: 15024464426
加盟熱線: 15024464426
媒體合作: 0571-87759945
投訴熱線: 0571-87759942

下載儀表站APP

Ybzhan手機版

Ybzhan公眾號

Ybzhan小程序