大数跨境
0
0

文献分享 | 混合脑机接口实现汉语四声解码,无声有声皆可识别

文献分享 | 混合脑机接口实现汉语四声解码,无声有声皆可识别 博睿康
2025-12-01
0
图片
点击左上方关注“博睿康”

近日,一项发表在IEEE Transactions on Neural Systems and Rehabilitation Engineering上的研究取得了重要突破,该研究首次系统性地探索了基于脑电(EEG)与肌电(EMG)的混合脑机接口(BCI)用于解码汉语普通话中的四个声调(阴平、阳平、上声、去声),并在无声与有声两种语音模式下实现了较高的分类准确率本研究由上海脑科学与类脑研究中心琚佳伟、索尼互动娱乐庄一凡和哈尔滨工业大学衣淳植共同完成。

该研究首次揭示了EEG和EMG信号以及无声和可听语音音调的时频特征,高质量的信号采集是其中的关键之一。博睿康自主研发的NeuSen W无线数字脑电采集系统具有低输入噪声的特点,为本研究采集记录了高质量的EEG和EMG信号。


01
研究背景

据世界卫生组织统计,全球有超过4亿人患有听力障碍,其中60-70%为聋哑人群。尤其值得注意的是,世界上近三分之一的人口使用声调语言(如汉语等),而声调在语义表达中起着至关重要的作用。然而,现有的语言识别BCI系统大多忽略了对声调的识别,这对于于那些不能正常发音的患者来说,严重影响了其沟通效率。

此前研究中,EEG相关探索多聚焦词汇或音节想象,未触及声调的神经机制;EMG虽用于语音解码,却未结合声调在不同语音模式下的肌肉激活差异。为了解决这一问题,研究团队从脑电和肌电信号入手,探究它们在无声与有声发音过程中声调的时频特征,探索EEG和EMG信号的哪些特征可以最优地解码普通话的四个声调,探究多模态信号融合对提升解码性能的潜力。


02
研究方法

1.实验对象

12名年龄在24 - 35岁之间的受试者

2.实验程序

实验开始时,当汉字显示在屏幕上时,要求被试按照标准进行发音操作。发音操作模式包括无声语音和可听语音。实验要求受试者在无声模式下默读字符,在有声模式下出声朗读。每个汉字在屏幕上呈现1.5s后,进入随机的1.5-3秒的休息间隔,直至所有字符在两种模式下均遍历一遍。

图1 实验程序和数据收集

3.采集设备

博睿康自主研发的64通道NeuSen W无线数字脑电采集系统采集脑电信号,同时通过专用通道采集右颊肌、左颊肌、颏肌等5个发音相关肌肉的EMG信号,全面记录声调产生时的神经与肌肉活动。


03
研究结果

经过标准化信号处理与分析,研究团队发现了汉语四声的显著神经与肌肉特征差异。

图2 不同受试者的声调脑地形图

EEG时频分析显示,额叶是四声差异最核心的脑区——无声模式下,额叶不同声调激活的ANOVA检验p值为0.000,一声与二声、一声与四声的两两比较p值均为0.000,三声与四声也达到0.001的显著水平;有声模式下,额叶差异更为明显,所有声调两两比较p值均小于0.05。频域层面,中央区及C6通道的特征差异极显著(p=0.000),且有声模式下除枕叶外,所有脑区均表现出四声差异。

图3 被试音调的时域特征分析

图4 被试音调的频域特征分析

EMG分析则指出,左颊肌在无声模式下四声激活差异显著(p=0.023),颏肌的频域特征在两种语音模式下均呈现极显著差异(p=0.000);无声模式下5块肌肉均有差异,有声模式则集中在右颊肌、右颈斜方肌与左颊肌。值得注意的是,二声与四声的激活模式在两种模式下均存在较高重叠,这也成为后续解码需突破的难点。

图5 EMG信号在无声/有声模式下对四声的时域与频域特征分析

在解码性能上,该混合脑机接口展现出优异表现。针对四声多分类任务,采用EEG时域特征结合支持向量机(SVM)分类器时,有声模式准确率达72.43%;结合正则化线性判别分析(RLDA)分类器时,无声模式准确率达71.22%,均显著优于频域特征解码效果。

图6 有声(左)和无声(右)模式下不同分类器(RLDA/SVM)基于四声分类准确率对比

更具实用价值的二分类任务中,RLDA结合EEG时域特征表现最佳——无声模式平均准确率91.00%,有声模式90.92%,其中一声与二声分类准确率最高(无声97.3%、有声98.0%)。而在区分“无声/有声”语音模式的任务中,EEGEMG特征级融合的方案突破瓶颈:RLDA分类器结合时域特征时,准确率高达81.33%,显著高于EEG单独解码的79.36%;通过SHAP值评估发现,EMG特征贡献度达58.80%EEG41.20%,证实二者的互补优势。

图7 基于SHAP值的EEG与EMG特征贡献度对比


04
讨论

这项研究的核心价值在于为声调语言障碍者搭建了“神经-语义”的沟通桥梁。该技术不仅首次揭示了四声的多模态神经特征,更通过EEG-EMG融合提升了实用性能——对无法正常发音的聋哑人而言,未来只需通过“默读”或轻微肌肉活动,脑机接口即可精准解码声调与语义,结合语音合成设备实现顺畅交流。

尽管当前跨被试解码准确率(无声声调56.51%、有声声调63.02%)仍有提升空间,团队计划后续引入深度学习优化特征提取,同时纳入性别、姿势等个体差异因素,进一步拓展技术适用场景。该研究得到上海扬帆计划基金(24YF2730700)支持,其成果为声调语言脑机接口研究开辟新方向,也为全球声调语言障碍者的言语康复带来新希望。

图8 跨被试在三种任务(有声、无声、双模)下的识别准确率对比

然而,研究也存在一些局限性:四声分类的准确率、跨主体泛化和模式识别仍需进一步优化;未考虑个体差异(如性别、身高等);仅考虑了两种发音模式,未涉及中间状态。未来研究将致力于通过开发有效特征、分类算法、差分分析技术以及EEG-EMG融合策略来提升解码性能。

这项研究为开发面向声调语言的语义解码系统奠定了基础,开辟了基于EEG和EMG信号融合解码语义的新研究方向。随着技术的不断进步,未来有望为语言障碍患者提供更加自然、高效的沟通方式,显著改善他们的生活质量。


文献:Ju, J., Zhuang, Y., & Yi, C. (2025). An EEG-EMG-based Hybrid Brain-Computer Interface for Decoding Tones in Silent and Audible Speech. IEEE Transactions on Neural Systems and Rehabilitation Engineering. DOI: 10.1109/TNSRE.2025.3616276




图片

关于“博睿康”

图片
博睿康技术(上海)股份有限公司

中国脑机接⼝领域的领军企业

      博睿康成⽴于2011年11⽉,核⼼团队毕业于脑机智能全球Top5的清华⼤学神经⼯程实验室以及临床神经领域的医疗市场专家,是中国脑机接⼝领域的领军企业之⼀。


以⾃主创新的“脑-机接⼝”技术为核⼼

     博睿康是⼀家以⾃主创新的“脑-机接⼝”技术为核⼼,专业从事脑-机接⼝系统相关设备的研发、⽣产、销售以及技术服务的⾼新技术企业。公司致⼒于为神经科学创新研究和临床神经疾病诊断、治疗与康复研究提供专业、完整的解决⽅案。公司主要客户有清华⼤学、中科院、北师大、北航、浙⼤、中科大、上海交⼤、⻄安交⼤、南开⼤学、南京⼤学等知名院校以及北医三院、宣武医院、华⼭医院、301医院、中国康复研究中⼼、清华⻓庚医院等医疗机构。


世界机器⼈⼤赛—脑-机接⼝⽐赛的协办⽅和官⽅指定设备供应商

      公司经过多年在脑机接⼝领域的悉⼼耕耘,积累了⼤量的技术储备和设备开发经验,并获得了众多荣誉。截⾄⽬前,公司已累计获得百余项专利技术,14个软件著作权,取得医疗器械⽣产许可证、医疗器械注册证和多个⾼新技术产品认定证书;相继承担或参与了国家⼗⼆五科技⽀撑计划“脑-机接⼝中的微弱信息采集技术及产品开发”课题以及科技部⼗三五重点研发计划 “阿尔兹海默病神经调控及智能康复关键技术和临床应⽤研究”课题;公司连续三届成为世界机器⼈⼤赛—脑-机接⼝⽐赛的协办⽅和官⽅指定设备供应商,并为⼤赛提供技术⼒量保障,为⼤赛的顺利举办保驾护航!


国内外神经⼯程与临床医学领域专家们的普遍认可

      公司产品不仅可⼴泛应⽤于神经科学、⼼理学、⼈因⼯程、运动学、管理学等科研领域,还可应⽤于临床神经疾病诊断、治疗与康复⼯程等临床医学领域,研发成果与技术实⼒受到了国内外神经⼯程与临床医学领域专家们的普遍认可。

【声明】内容源于网络
0
0
博睿康
博睿康核心团队来自于清华大学医学院神经工程实验室,专注神经电生理产品,覆盖科研和医疗领域。主营脑电相关产品-科研领域:无线脑电系统、高导联脑电系统、多人同步ERP/EEG系统;医疗领域:脑功能相关产品、高频脑电等。
内容 416
粉丝 0
博睿康 博睿康核心团队来自于清华大学医学院神经工程实验室,专注神经电生理产品,覆盖科研和医疗领域。主营脑电相关产品-科研领域:无线脑电系统、高导联脑电系统、多人同步ERP/EEG系统;医疗领域:脑功能相关产品、高频脑电等。
总阅读29
粉丝0
内容416