大数跨境

V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标

V4 发布前的 DeepSeek:特质、组织和梁文锋的独特目标 晚点LatePost
2026-04-02
7
导读:有人离开,更多人留下。

人才流动中坚守研发初心

文丨程曼祺

编辑丨宋玮

2025年下半年至今,DeepSeek核心成员出现变动:王炳宣(DeepSeek LLM核心作者)加入腾讯;魏浩然(DeepSeek-OCR核心作者)或入职大厂;郭达雅(DeepSeek-R1核心作者)正式离职;阮翀(多模态专家)加入元戎启行。但团队整体保持稳定,研发主线持续推进。

作为未融资企业,DeepSeek面临员工期权价值确认等新课题。创始人梁文锋自2025年秋起着重推动产品化,组建数十人产品团队,但尚未涉足AI编程等热门领域。当前团队规模已超幻方历史峰值,需应对管理复杂度提升的挑战。

V4模型进展备受关注。据消息,小参数版本已于2026年1月向开源社区适配,大参数版有望于4月发布。同期,团队坚持高效研发模式:无打卡制度、不强制加班(员工通常18:00-19:00下班),梁文锋认为"高质量工作时间难超6-8小时"。

梁文锋其人:做少数事,做到极致

梁文锋的AI之路始于2016年。作为幻方量化创始人,他于2019年成立幻方AI,2023年转入DeepSeek。其管理风格高度聚焦:谢绝常规融资,曾提出"投资回报上限"条款;拒绝多数投资人接洽,专注技术细节。

他深度参与模型架构讨论,常以"研究员"身份交流技术。绿洲资本张津剑曾转述MiniMax创始人闫俊杰的观察:梁文锋会提前赴约探讨技术问题,其貌不扬的T恤装扮令人初误为助理。团队习惯称1985年出生的他为"梁老板",其核心特质是"将时间投入关键事项并做到极致"。

DeepSeek组织:扁平、交叉分工、不加班

团队采用极简架构:研究部门仅梁文锋与研究员两级。约百人研发团队中,70%成员低于30岁,多由应届生/实习生留任。三大核心模块(基模架构、Infra、数据团队)各数十人,形成紧密协作的"交叉分工"机制。

梁文锋作为"探测器与粘合剂",出席各团队会议掌握全局。公司无明确绩效考核与DDL,鼓励研究员自发组队探索创新。免费提供球类课程等福利,践行"高效工作优于长时间加班"理念。在V3和R1阶段,团队以大厂1/10人力、1/2工时跻身全球大模型第一梯队。

外部环境巨变下的技术坚守

2025年初V3/R1爆火后,DeepSeek持续聚焦三条技术路线:一是GPU算力极致优化,包括NSA/DSA注意力机制改进及TileLang算子库应用;二是模型架构创新如mHC、Engram;三是非主流探索如DeepSeek-OCR文档理解方案。

同期行业竞争主线转向Agentic模型(OpenClaw等)和多模态生成(GPT-4o、Seedance 2.0)。DeepSeek未跟进多模态,仅在V3.2强化Agent能力。OpenRouter数据显示,其模型位列中国开发者常用模型第12位。

坚持独特路径的人才引力

梁文锋的战略定位于两大方向:国产化适配(如FP8数据压缩格式支持国产芯片)和"原创式创新"(Janus多模态、Prover形式化证明等)。这与当前行业"保持最强"的主流诉求形成差异。

面对同行"翻2-3倍"的高薪邀约及竞对IPO带来的期权质疑,多数成员选择留下。核心吸引力在于:宽松研究氛围、原创探索空间,以及"自然分工"机制——新方向常源于三五研究员自发组建团队。有业内人士评价:"这是真心做研究者在全球的最佳落脚地。"

在变化中平衡理想与现实

V4模型预计将延续开源优势,但难以实现碾压性突破。梁文锋近期启动公司估值工作,尝试平衡内部成员对期权价值的期待。招聘动态显示,团队正首次明确招募Agent方向"模型策略产品经理",计划强化产品落地能力。

2025年R1成功印证了"小而美"研发模式的可行性,但行业已进入产品生态竞争阶段。梁文锋需要甄别外部噪音,在保持原创探索的同时增强应用布局。正如业内人士所言:"只有更多DeepSeek式企业的存在,中国科技才能从'复刻'走向领跑。"

陈佳惠对此文亦有贡献

- FIN -

【声明】内容源于网络
0
0
晚点LatePost
各类跨境出海行业相关资讯
内容 2355
粉丝 0
晚点LatePost 各类跨境出海行业相关资讯
总阅读21.1k
粉丝0
内容2.4k