V4 发布前的 DeepSeek：特质、组织和梁文锋的独特目标- 大数跨境

晚点LatePost

2026-04-02

导读：有人离开，更多人留下。

人才流动中坚守研发初心

文丨程曼祺

编辑丨宋玮

2025年下半年至今，DeepSeek核心成员出现变动：王炳宣（DeepSeek LLM核心作者）加入腾讯；魏浩然（DeepSeek-OCR核心作者）或入职大厂；郭达雅（DeepSeek-R1核心作者）正式离职；阮翀（多模态专家）加入元戎启行。但团队整体保持稳定，研发主线持续推进。

作为未融资企业，DeepSeek面临员工期权价值确认等新课题。创始人梁文锋自2025年秋起着重推动产品化，组建数十人产品团队，但尚未涉足AI编程等热门领域。当前团队规模已超幻方历史峰值，需应对管理复杂度提升的挑战。

V4模型进展备受关注。据消息，小参数版本已于2026年1月向开源社区适配，大参数版有望于4月发布。同期，团队坚持高效研发模式：无打卡制度、不强制加班（员工通常18:00-19:00下班），梁文锋认为"高质量工作时间难超6-8小时"。

梁文锋其人：做少数事，做到极致

梁文锋的AI之路始于2016年。作为幻方量化创始人，他于2019年成立幻方AI，2023年转入DeepSeek。其管理风格高度聚焦：谢绝常规融资，曾提出"投资回报上限"条款；拒绝多数投资人接洽，专注技术细节。

他深度参与模型架构讨论，常以"研究员"身份交流技术。绿洲资本张津剑曾转述MiniMax创始人闫俊杰的观察：梁文锋会提前赴约探讨技术问题，其貌不扬的T恤装扮令人初误为助理。团队习惯称1985年出生的他为"梁老板"，其核心特质是"将时间投入关键事项并做到极致"。

团队采用极简架构：研究部门仅梁文锋与研究员两级。约百人研发团队中，70%成员低于30岁，多由应届生/实习生留任。三大核心模块（基模架构、Infra、数据团队）各数十人，形成紧密协作的"交叉分工"机制。

梁文锋作为"探测器与粘合剂"，出席各团队会议掌握全局。公司无明确绩效考核与DDL，鼓励研究员自发组队探索创新。免费提供球类课程等福利，践行"高效工作优于长时间加班"理念。在V3和R1阶段，团队以大厂1/10人力、1/2工时跻身全球大模型第一梯队。

2025年初V3/R1爆火后，DeepSeek持续聚焦三条技术路线：一是GPU算力极致优化，包括NSA/DSA注意力机制改进及TileLang算子库应用；二是模型架构创新如mHC、Engram；三是非主流探索如DeepSeek-OCR文档理解方案。

同期行业竞争主线转向Agentic模型（OpenClaw等）和多模态生成（GPT-4o、Seedance 2.0）。DeepSeek未跟进多模态，仅在V3.2强化Agent能力。OpenRouter数据显示，其模型位列中国开发者常用模型第12位。

梁文锋的战略定位于两大方向：国产化适配（如FP8数据压缩格式支持国产芯片）和"原创式创新"（Janus多模态、Prover形式化证明等）。这与当前行业"保持最强"的主流诉求形成差异。

面对同行"翻2-3倍"的高薪邀约及竞对IPO带来的期权质疑，多数成员选择留下。核心吸引力在于：宽松研究氛围、原创探索空间，以及"自然分工"机制——新方向常源于三五研究员自发组建团队。有业内人士评价："这是真心做研究者在全球的最佳落脚地。"

V4模型预计将延续开源优势，但难以实现碾压性突破。梁文锋近期启动公司估值工作，尝试平衡内部成员对期权价值的期待。招聘动态显示，团队正首次明确招募Agent方向"模型策略产品经理"，计划强化产品落地能力。

2025年R1成功印证了"小而美"研发模式的可行性，但行业已进入产品生态竞争阶段。梁文锋需要甄别外部噪音，在保持原创探索的同时增强应用布局。正如业内人士所言："只有更多DeepSeek式企业的存在，中国科技才能从'复刻'走向领跑。"

陈佳惠对此文亦有贡献

- FIN -

【声明】内容源于网络

晚点LatePost

各类跨境出海行业相关资讯

内容 2355

粉丝 0

晚点LatePost 各类跨境出海行业相关资讯

总阅读21.1k

粉丝0

内容2.4k