新智元报道
编辑:桃子
【新智元导读】MIT博士、清华双学位学者肖光烜正式加盟Thinking Machines,主攻大模型预训练方向。
MIT博士肖光烜近期宣布完成博士学位,将加入由OpenAI前CTO创办的AI初创公司Thinking Machines,聚焦大模型预训练研发。
消息发布后,英伟达科学家、xAI研究员及UCSD等机构研究人员纷纷在社交平台送上祝贺。
清华双学位学霸,MIT博士开挂人生
肖光烜本科就读于清华大学,获计算机科学与技术、金融学双学士学位。
在校期间,他多次获得清华大学综合优秀奖学金(2019)、全国大学生数学建模竞赛一等奖(2020)、国家奖学金(2020)及「未来学者」奖学金(2021);2020–2021年赴斯坦福大学计算机系开展访问研究。
2022年入读MIT电气工程与计算机科学系(EECS),师从韩松教授,研究方向为深度学习高效算法与系统,尤其聚焦大规模基础模型(Foundation Model)。
2022年9月至2026年1月,担任MIT EECS全职研究助理。博士期间曾在Meta、英伟达等企业实习:
- 2023年于Meta实习,研究「流式语言模型的高效注意力机制」,成果发表于arXiv(arXiv:2309.17453);
- 2024年2–5月在英伟达实习,提出DuoAttention——融合检索与流式注意力头的长上下文推理加速方案(NVIDIA官方论文页);
- 参与XAttention(反对角评分块稀疏注意力)、StreamingVLM(无限视频流实时理解模型)、FlashMoBA(混合块注意力高效CUDA内核)等多项前沿项目。
除科研外,肖光烜热爱足球、乒乓球、围棋与钢琴,曾任院系足球队队长;贝多芬作品为其最钟爱的音乐。
一篇博士论文,破解LLM三大难题
肖光烜的博士论文《Efficient Algorithms and Systems for Large Language Models》系统性回应当前大模型工业落地的三大核心瓶颈:显存爆炸、推理低效、超长上下文OOM。
论文提出多项关键技术:
- SmoothQuant:通过数学等价变换将量化难点从激活值迁移至权重,在十亿级模型上实现W8A8无损量化,无需微调,显著降低显存占用并提升推理速度;
- StreamingLLM:发现「注意力汇点」(attention sink)现象,据此设计常数内存流式推理机制,支持上下文长度从数千扩展至百万级token;其思想延伸至多模态,形成StreamingVLM,可实时处理数小时连续视频流;
- DuoAttention:针对KV Cache过大问题,区分全局检索与局部关注注意力头,混合调度,大幅节省显存且性能无损;
- XAttention:优化预填充(Prefill)阶段,利用反对角线评分机制跳过冗余计算块,加速长序列处理;
- FlashMoBA:基于对MoBA信噪比的理论分析,定制CUDA内核实现小块注意力架构落地,实测最高提速9倍。
该论文构建了覆盖算法、系统、硬件协同的高效大模型完整技术框架,既解决当下工程痛点,也为普惠型AGI提供底层支撑。
平均年薪350万元,超OpenAI水平
据Business Insider 2025年披露数据,Thinking Machines(TML)2025年Q1技术员工平均基础年薪达46.25万美元(约合人民币324万元),四名核心技术人员中最高达50万美元(约350万元)。
对比行业水平:
- OpenAI 29名技术员工平均年薪为29.2万美元(约205万元),区间为20万–53万美元;
- Anthropic 14名技术员工平均年薪为38.75万美元(约271万元),区间为30万–69万美元。
TML薪酬水平位居当前主流大模型公司前列,反映其对顶尖算法与系统人才的高度重视。

