中科院自动化所提出神经形态脉冲大语言模型NSLLM
近日,中国科学院自动化研究所李国齐、徐波团队在《National Science Review》发表题为《Neuromorphic Spike-based Large Language Model》的论文,提出神经形态脉冲大语言模型(NSLLM)。该模型借鉴神经科学原理,在提升大型语言模型(LLMs)能效与可解释性方面取得突破,为高效AI发展及下一代神经形态芯片设计提供新思路。
NSLLM:连接大模型与神经科学
当前LLMs虽已成为实现人工通用智能(AGI)的关键工具,但其高计算与内存开销限制了规模化部署;同时,黑箱特性导致其在医疗、金融等高风险场景中可靠性与公平性不足[2]。相较之下,人脑功耗低于20瓦且具备天然可解释性,凸显现有模型与人类认知间的差距[2]。
为此,该研究构建学科统一框架,通过整数脉冲计数-二值脉冲转换与脉冲线性注意力机制,将传统LLM转化为NSLLM,实现大模型与神经科学的跨域衔接,并支持神经科学工具对信息处理过程的定量分析[2]。
NSLLM:从大语言模型到神经形态架构的高效处理框架
超低功耗软硬协同定制MatMul-Free LLM
研究团队在FPGA平台定制十亿参数级无矩阵乘法(MatMul-Free)架构,采用逐层量化策略与层级灵敏度度量,配置最优混合时间步脉冲模型;引入量化辅助稀疏策略,优化膜电位分布,显著降低脉冲发放率[3]。
在VCK190 FPGA上实现的MatMul-Free硬件核心,完全消除矩阵乘法操作,动态功耗降至13.849W,吞吐量达161.8 token/s;相比A800 GPU,能效、内存效率和推理吞吐量分别提升19.8×、21.3×和2.2×[3]。
NSLLM在FPGA平台上的硬件核心设计
脉冲神经群体增强可解释性
NSLLM将LLM行为映射为神经动力学模型(如脉冲序列),支持基于Kolmogorov-Sinai熵、Shannon熵与互信息等指标,量化分析神经元动态与信息处理机制[4]。实验表明:处理无歧义文本时,模型编码效率更高;中间层对歧义文本呈现更高归一化互信息;AS层展现稀疏信息处理特征;FS层Shannon熵更高,信息传递能力更强;互信息与Shannon熵正相关,印证高信息容量层更擅长保留关键输入信息[4]。
该框架融合神经动力学与信息度量,为LLM内在机制提供生物学可解释路径,并有效降低数据依赖[4]。基于人脑稀疏、事件驱动计算原理,NSLLM在常识推理、阅读理解、世界知识问答、数学等任务中,性能与同规模主流模型相当[4]。
NSLLM的神经动力学分析
该研究由中科院自动化所、天桥脑科学研究院尖峰智能实验室、北京智源人工智能研究院、清华大学、北京大学、加州大学、悉尼大学、香港理工大学、中科院大学、宁波大学、陆兮科技、超威半导体公司等国内外机构合作完成[4]。
DOI: 10.1093/nsr/nwaf551

