大数跨境

Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司?

Anyscale:Databricks 创始人再下场,ML 领域最值得期待的公司? 海外独角兽
2022-12-28
214
导读:手握相同剧本的 Anyscale 能否复制下一个 Databricks?

Anyscale:分布式计算新星的崛起与挑战

源自伯克利实验室的AI基础设施新势力,能否复刻Databricks传奇?



作者:Kefei

编辑:penny

排版:Lydia

2019年,UC Berkeley教授Ion Stoica联合两名博士生Robert Nishihara与Philipp Moritz创立Anyscale,推出基于开源框架Ray的分布式计算平台。作为Databricks创始团队核心成员,Ion再度创业引发市场高度关注,Anyscale被视为AI/ML时代分布式计算的重要候选者[k]

Anyscale的核心技术Ray源自伯克利RISELab,与Databricks之于Spark的关系类似,Anyscale是Ray的商业化载体。Ray目前GitHub获2.3万星标,支持超760位贡献者,已成为ChatGPT等大模型训练的底层框架之一[k]

2021年12月,Anyscale完成1亿美元C轮融资,估值达10亿美元,投资方包括a16z、NEA、Intel等。2023年8月,Addition与Intel再次领投9900万美元,凸显资本市场对其长期潜力的认可[k]

分布式计算:AI时代的基础设施刚需

分布式计算通过将大型任务拆解至多台机器并行处理,实现可扩展性与高可靠性。随着AI模型复杂度与数据量指数级增长,单机算力已难以满足训练需求,分布式架构成为提升效率、控制成本的关键路径[k]

企业对机器学习开发效率的追求也推动分布式平台发展。Anyscale致力于降低技术门槛,使数据科学家无需依赖高水平IT团队即可完成资源调度与并发管理,显著提升研发效率[k]

产品架构:构建AI全生命周期平台

Anyscale基于Ray构建云原生托管平台,提供Ray Core与Ray AI Runtime(Ray AIR)两大组件。后者集成数据处理(Ray Data)、分布式训练(Ray Train)、超参数调优(Ray Tune)、模型服务(Ray Serve)及强化学习(Ray RLlib)等模块,覆盖AI工作流核心环节[k]

作为底层运行时,Ray兼容PyTorch、TensorFlow等主流框架,支持跨云、Kubernetes及本地集群部署。Anyscale在此基础上增强可观测性、访问控制与安全能力,目标是提供从开发到生产的端到端AI平台[k]

包括Microsoft、Amazon、Nvidia、Uber、OpenAI、字节跳动、蚂蚁集团在内的多家科技企业已在使用Ray进行机器学习任务,但商业化付费客户仍处于早期阶段[k]

创始人光环与技术延续性

Ion Stoica为Anyscale的核心竞争力所在。他不仅是Spark联合发起人与Databricks联合创始人,还主导过Apache Mesos、Tachyon等开源项目,并领导伯克利Sky Computing Lab探索下一代云计算范式[k]

CEO Robert Nishihara与CTO Philipp Moritz均为其学生,具备扎实的技术背景与执行力。团队延续了伯克利实验室在数据基础设施领域的深厚积累,形成强大的技术号召力[k]

市场竞争格局:挑战与机遇并存

Anyscale主要面临Databricks(Spark)与三大云厂商的竞争。相比Spark,Ray具备更强的容错能力与范式自由度,支持更灵活的AI计算模型,尤其在强化学习领域表现突出[k]

然而,Ray在传统机器学习场景渗透率较低,数据处理能力尚不及Spark成熟。其开源生态仍在建设中,开发者面临文档不足与社区支持有限等问题。多数企业仍倾向组合使用Spark(数据预处理)与Ray(模型训练)[k]

总体来看,Anyscale虽具技术先发优势,但商业化路径尚不清晰,Product/Market Fit仍需验证。其能否在AI基础设施领域复制Databricks的成功,取决于场景聚焦能力与生态建设速度[k]

Anyscale:能否复刻Databricks的AI时代传奇?

AWS、Azure、GCP等主流云厂商均拥有自研的分布式计算框架,与Anyscale的核心产品Ray形成直接竞争,构成一定的市场压力[k]

核心判断:优势与挑战并存

成功要素

1. 连续创业者带队,路径复用成熟经验

Anyscale团队是其最大亮点。创始人Ion为连续成功创业者,联合创始人Robert Nishihara与Philipp Moritz技术背景深厚。公司沿袭Databricks“从实验室开源项目走向商业化”的发展路径:早期即设立独立团队分别负责开源框架Ray和商业化平台Anyscale,避免重蹈Databricks早期探索中的弯路,显著提升组织效率[k]

2. 技术实力突出,AI/ML原生优势明显

调研显示,多位技术专家认为Ray在论文与代码层面均展现出强大技术能力,构成竞争壁垒。相比Spark,Ray更契合机器学习(ML)工作流,在强化学习等领域表现尤为突出,被业界普遍视为更“AI/ML-native”的分布式计算框架[k]

3. 行业资源与人才吸引力强

Anyscale已吸引大量顶尖人才加入,尽管招聘门槛高、薪资低于行业平均水平,仍获广泛青睐。团队的技术声誉和Ion在行业难题上的持续突破,成为吸引人才的关键。公司成立初期即获Ben Horowitz等顶级投资人支持,并与Microsoft、Amazon、OpenAI、ByteDance等企业保持深度合作,共同打磨产品与技术方案[k]

4. 行业标准尚未确立,窗口期机遇大

当前AI/ML领域的分布式计算标准尚未形成。Spark虽为大数据处理的行业标准,但在AI场景下局限性显现。Ray作为呼声最高、潜力最大的候选框架,正处于成为行业标准的关键阶段,商业化前景广阔[k]

主要风险

1. 刚需程度存疑,经济周期敏感

Ray处于机器学习技术栈底层,非传统工作流必需组件,更多属于“锦上添花”型工具。在经济下行周期中,企业倾向于优先削减此类非刚需支出,影响其商业化稳定性。此外,其优势主要集中在强化学习,传统ML场景中优势不显著,应用范围存在一定局限[k]

2. 行业爆发时点不明

Databricks的成功得益于大数据需求的全面爆发。相比之下,AI分布式计算的市场需求规模与爆发时点尚不明确。尽管AIGC(如ChatGPT基于Ray训练)带来积极信号,但并非所有ML任务都需高性能分布式支持,性能与成本需平衡,商业化节奏面临不确定性[k]

3. 商业价值不清晰,产品力待验证

Anyscale商业化路径尚不明确,闭源产品相较开源版本增值有限。部分用户反馈缺乏计算数据流向透明度,影响高安全要求企业的采购决策。调研显示,部分标杆用户仅将Ray用于技术借鉴,无意付费,反映出商业化产品吸引力仍需加强[k]

4. 无数据留存,用户迁移成本低

作为轻量级方案,Ray仅需少量代码即可集成,且不存储数据。这一特性虽提升易用性,但也导致用户迁移成本极低,客户粘性较弱,对企业持续付费意愿构成挑战[k]

总结与建议

Infra类企业成功通常经历四个阶段:新需求出现→通用框架涌现→行业标准形成→商业化兑现。Anyscale目前处于第二阶段,虽具备技术、团队与资源优势,但行业标准未定,投资风险仍高[k]

参考Databricks经验,其成功关键在于:1)Spark成为行业标准;2)Databricks产品实现明确的Product/Market Fit,付费ROI高于自建方案。Anyscale若能在标准确立与商业化场景突破上取得进展,有望复制Databricks的成功路径[k]

建议持续关注Anyscale在技术生态建设、商业化进展及行业收敛趋势方面的动态[k]

【声明】内容源于网络
0
0
海外独角兽
各类跨境出海行业相关资讯
内容 349
粉丝 0
海外独角兽 各类跨境出海行业相关资讯
总阅读12.0k
粉丝0
内容349