知友招生丨清华交叉信息研究院 Data-centric AI 方向硕/博（27 年入学）- 大数跨境

首页

知友招生丨清华交叉信息研究院 Data-centric AI 方向硕/博（27 年入学）

知乎AI先行者

2026-05-12

帮知友发个招生 - 2026.5 清华

（理论方向）大模型 pre-training / mid-training 的 data recipe
（实验方向）设计 post-training 阶段较为通用的评估数据质量的指标
联系方式：
shuranzheng@mail.tsinghua.edu.cn
联络时间：2026/5/2-2026/6/15

郑舒冉

清华大学IIIS助理教授.

Data-centric AI

大家好，我是郑舒冉，清华大学交叉信息研究院助理教授，研究方向主要为 Data-centric AI，最近也对 deep learning theory (Science of AI) 和具身智能数据非常感兴趣。

相信大家都知道数据对 AI 的重要性。我们课题组当前在推进的方向主要有两个（我的个人主页有点 outdated，我会尽快更新）：

1.（理论方向）大模型 pre-training / mid-training 的 data recipe，也就是如何在 pre-training / mid-training 阶段选择数据。这个方向最近有很多实验性的工作，但理论性的工作不多。我们希望构建理论模型，去理解这一阶段数据对模型训练的影响，从而设计数据选择的方法。或者说，我们希望理解模型在 pre-training / mid-training 阶段是如何学习数据中的 knowledge 和 skill 的。我们可能会用到的工具包括但不限于：deep learning theories（https://arxiv.org/html/2604.21691v1）、scaling laws、information theory。

2.（实验方向）设计 post-training 阶段较为通用的评估数据质量的指标。这个方向目前我们聚焦于具身智能数据，仍处于初期探索阶段，比较缺人。我们也在积极与院系内的其他课题组开展合作。

课题组氛围和培养方案：

对于团队建设，我比较追求小而精。我会保证与每个学生的交流时间，我也希望我的每一位学生都能找到自己最热爱的东西，以及最适合自己的道路。
对于论文发表，同样，我追求的是质量而非数量。我希望我的学生们都去做他们自己真正感兴趣、有价值、有意义的课题。
我们每周会有组会，同学们轮流分享最近的论文，或是自己感兴趣的知识点/工具，或是自己最近的工作。我们学院也有例行的 reading group/seminar，包括 ml theory、ai safety 等。

对学生的期望：

主动、有学术热情：对于一个博士研究生，我认为最重要的品质就是有学术追求和科研热情。你不一定要在入学之初就确定未来具体要做什么课题，但一定要有“做出有价值的科研”的追求与决心，并主动去探索、为之付出努力。
坚持、不害怕失败：科研的很大一部分是探索和试错的过程，在做出能被认可的工作之前，你可能有至少 80%的时间都在失败。这里的失败可能包括试了很久的 idea 发现不 work、证了很久的定理发现是错的、跑了很久的实验都不符合预期，也可能包括投稿碰到不靠谱的审稿人、一篇论文被拒 n 年。很多时候，你最需要的可能就是坚持。

博士生招生要求：

研究经历：至少有一篇计算机方向顶会论文中稿或在投，并且是一作或是共同一作。这里计算机方向顶会可以是AI方向顶会（ICML, ICLR, Neurips等)或是计算机理论顶会（FOCS, STOC, COLT, SODA等）。

专业基础：需要完整学习过计算机专业主要基础课程并取得良好成绩，包括人工智能大类（如机器学习、深度学习、大语言模型、计算机视觉等）、理论大类（如算法与复杂性、机器学习理论、优化理论等）、计算机系统（这部分要求较低，上过基础课程即可）。

硕士生招生要求：

研究经历：有具身智能/大语言模型实习经历或工程类项目经历。

专业基础：学习过（可以是自学）计算机专业主要基础课程。

投递方式：

欢迎有兴趣的同学通过邮箱联系我(shuranzheng@mail.tsinghua.edu.cn).

我会在 2026/5/2-2026/6/15 期间尽快回复满足要求的学生。谢谢！