MIT天才博士刚毕业，就被前OpenAI CTO抢走！年薪或300万起步- 大数跨境

新智元

2026-01-09

新智元报道

编辑：桃子

MIT博士肖光烜近期宣布完成博士学位，将加入由OpenAI前CTO创办的AI初创公司Thinking Machines，聚焦大模型预训练研发。

消息发布后，英伟达科学家、xAI研究员及UCSD等机构研究人员纷纷在社交平台送上祝贺。

清华双学位学霸，MIT博士开挂人生

肖光烜本科就读于清华大学，获计算机科学与技术、金融学双学士学位。

在校期间，他多次获得清华大学综合优秀奖学金（2019）、全国大学生数学建模竞赛一等奖（2020）、国家奖学金（2020）及「未来学者」奖学金（2021）；2020–2021年赴斯坦福大学计算机系开展访问研究。

2022年入读MIT电气工程与计算机科学系（EECS），师从韩松教授，研究方向为深度学习高效算法与系统，尤其聚焦大规模基础模型（Foundation Model）。

2022年9月至2026年1月，担任MIT EECS全职研究助理。博士期间曾在Meta、英伟达等企业实习：

2023年于Meta实习，研究「流式语言模型的高效注意力机制」，成果发表于arXiv（arXiv:2309.17453）；
2024年2–5月在英伟达实习，提出DuoAttention——融合检索与流式注意力头的长上下文推理加速方案（NVIDIA官方论文页）；
参与XAttention（反对角评分块稀疏注意力）、StreamingVLM（无限视频流实时理解模型）、FlashMoBA（混合块注意力高效CUDA内核）等多项前沿项目。

除科研外，肖光烜热爱足球、乒乓球、围棋与钢琴，曾任院系足球队队长；贝多芬作品为其最钟爱的音乐。

肖光烜的博士论文《Efficient Algorithms and Systems for Large Language Models》系统性回应当前大模型工业落地的三大核心瓶颈：显存爆炸、推理低效、超长上下文OOM。

论文提出多项关键技术：

SmoothQuant：通过数学等价变换将量化难点从激活值迁移至权重，在十亿级模型上实现W8A8无损量化，无需微调，显著降低显存占用并提升推理速度；
StreamingLLM：发现「注意力汇点」（attention sink）现象，据此设计常数内存流式推理机制，支持上下文长度从数千扩展至百万级token；其思想延伸至多模态，形成StreamingVLM，可实时处理数小时连续视频流；
DuoAttention：针对KV Cache过大问题，区分全局检索与局部关注注意力头，混合调度，大幅节省显存且性能无损；
XAttention：优化预填充（Prefill）阶段，利用反对角线评分机制跳过冗余计算块，加速长序列处理；
FlashMoBA：基于对MoBA信噪比的理论分析，定制CUDA内核实现小块注意力架构落地，实测最高提速9倍。