大数跨境
0
0

一文看懂 TritonNext 2026:FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”!

一文看懂 TritonNext 2026:FlagOS 亮点详解、语言扩展新趋势、AI 生成更加“底层”、芯片软件生态或迎“新拐点”! AI科技大本营
2026-01-10
5
导读:聚焦下一代算子编程语言与真实落地实践

2026 TritonNext 技术大会在京召开:聚焦下一代算子编程与异构硬件适配

算力已成为 AI 时代的“石油”,而高效挖掘异构算力潜能、打破单一硬件架构的软件壁垒,是全行业共同面临的挑战。过去二十年,CUDA 几乎定义了 GPU 编程路径;但随着国产 AI 芯片崛起与异构计算普及,Triton 正从学术语言演变为工业界连接算法与芯片的关键“通用语”。与此同时,算子开发的易用性与极致性能如何兼顾?碎片化硬件适配难题又该如何破解?

1 月 9 日,由众智 FlagOS 开源社区、北京智源人工智能研究院与 CSDN 联合主办的「2026 TritonNext 技术大会」在北京中关村国家自主创新示范区展示中心开幕。作为国内首个聚焦 Triton 生态与下一代算子编程、编译器技术的硬核盛会,大会以“聚焦下一代算子编程语言与真实落地实践”为核心,汇聚中科院计算所、华为、蚂蚁集团、字节跳动、百度、摩尔线程等顶尖机构专家,围绕 AI 编译器、高性能算子开发及异构硬件适配展开深度探讨。

大会由 FlagOS 开源社区秘书长朱其罡主持。他指出,编程语言始终向更高抽象层级演进;Triton 凭借高效与优雅,正吸引越来越多开发者。本次大会不仅是对技术的深挖,更是对 AI 基础设施的一次全面检阅。

林咏华:FlagOS v1.6 发布,三大方向破解 AI 软硬件“M×N”生态难题

林咏华(北京智源人工智能研究院副院长兼总工程师)指出:“我们不仅着眼于今天的 Triton,更要探索 Triton 的 Next。” FlagOS 自 2022 年底 PyTorch 2.0 发布后即选择 Triton 路线,现已建成全球最大的通用算子库 FlagGems,并推出支持 12 家厂商 AI 芯片的统一多芯片编译器 FlagTree,初步解决国产芯片生态“南向”统一问题。

面对芯片架构快速迭代、算子语言生态分裂、“M 种框架 × N 种芯片”的适配难题,FlagOS v1.6 推出三项关键能力:

  • FlagScale 插件体系:解耦框架与芯片,将“M×N”适配降维为“M+N”,大幅降低大模型迁移成本;
  • TLE(Triton Language Extension)预览版:在保持易用性前提下增强性能控制力;
  • KernelGen v1.0:升级自 Triton-Copilot,构建覆盖“描述-生成-验证-适配”全生命周期的自动化平台,推动算子开发从劳动密集型迈向 AI 自动化。

截至当前,FlagOS 项目累计代码量达 2,546,586 行,Git Clone 次数 162,789 次,贡献者 658 位,已携手 65 家生态伙伴共建开放计算基石。

崔慧敏:AI for Compiler,以“自适应编译”加速芯片生态构建

崔慧敏(中科院计算所研究员、中科加禾创始人兼 CEO)提出,“AI for Compiler”是破解芯片快速演进瓶颈的关键路径。其团队构建 AI 驱动工具链:

  • VEGA 工具实现编译器后端自动化生成,大幅缩短人工开发周期;
  • 构建含 74 万样本的专用数据集 ComBack++,并微调后端专用大模型 BePilot,关键任务准确率提升至近 60%;
  • 基于优化专用数据集 IR-OptSet 训练的 AI 编译器,在测试中于 64 个案例上性能超越业界高度优化的 LLVM -O3。

崔慧敏总结,AI 正重塑编译器开发范式,为国产 AI 芯片提供强大“智能引擎”。

致谢仪式:FlagOS v1.6 研发致谢与 FlagTree 项目治理升级

大会举行“众智 FlagOS v1.6 研发致谢单位授予仪式”,北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、百度飞桨、寒武纪、华为、摩尔线程、天数智芯等多家单位代表上台领奖。

同时,“众智 FlagOS 社区 FlagTree 项目第一届项目管理委员会”正式成立。傅振东(天数智芯)、刘笑妍(智源研究院)、刘红雨(百度)、门春雷(智源研究院)、邱凌峰(摩尔线程)、任鸽(昆仑芯)、杨锐林(智源研究院)、郑杨(智源研究院)、曾平(寒武纪)九位技术负责人加入,标志 FlagOS 社区治理迈向更开放、共建的新阶段。

上海人工智能实验室:DLCompiler 破解算子开发“不可能三角”

上海人工智能实验室专家指出,国产算子开发长期受限于“开发门槛高、调优难度大、架构兼容难”的“不可能三角”。为此,团队推出基于 Triton 扩展的全栈优化方案 DLCompiler:

  • 语言层:重构 Triton 语法原语,提供四层渐进式 API,兼顾初学者入门与专家级性能控制;
  • 模型层:针对昇腾 Cube/Vector 分离架构,提出 Produce/Consumer 编程模型,显式流水线编排提升数据流动效率;
  • 性能实测:在昇腾平台,优化算子性能较社区通用实现提升 1.2–1.9 倍;8k 输入 AttentionProlog 融合算子加速比达 180%。

DLCompiler 与其高性能算子库 DLBlas 已开源,目标迁移 1000+ 算子至国产 AI 芯片,加速替代 CUDA 生态。

门春雷:FlagTree v0.4 发布,“三层 DSL”重塑异构编译生态

门春雷(北京智源人工智能研究院 AI 系统团队负责人)介绍,FlagTree 通过分层抽象实现“Write once with Triton, compile anywhere”,推出 TLE(Triton Language Extensions)三层协同 DSL:

  • TLE-Lite:面向算法工程师,高层语义提示引导自动优化,实现“一次编写,到处运行”;
  • TLE-Struct:面向性能优化工程师,暴露 GPGPU/DSA 通用并行与存储结构,支持架构感知调优;
  • TLE-Raw:面向底层开发者,支持内联厂商原生代码,实现原生透传与极致掌控。

实测显示:DeepSeek 核心算子中,仅一行 TLE-Lite 异步加载提示即可提升 GPU 性能 27%;DSA 硬件上,TLE 优化后算子延迟降低超 50%。此外,PyPI 一键安装与预编译包部署将安装耗时压缩至 5 分钟以内,CI/CD 与 PyTorch/PaddlePaddle 无缝集成显著提升开发者体验。团队正研发面向 DSA 的统一中间表示 FL-IR,将于后续版本发布。

郑思泽:Triton-Distributed 实现“编译级”分布式性能跨越

郑思泽(字节跳动工程师)指出,当前大模型分布式编程需重写大量 CUDA 代码,工程代价高昂。字节 Infra 团队开源 Triton-Distributed,抽象底层硬件与通信复杂性,让开发者以单卡 Triton 体验开发高性能分布式算子。

其核心是三层编程模型(Tile/Chunk/Task),配合分布式数据重排(Swizzling)、硬件指令调用等深度优化,实现计算与通信极致重叠:

  • 单层算子性能相比 CuBLAS+NCCL 最高提升 1.43 倍;
  • LLaMA3-70B 端到端推理 Token 生成延迟由近 50ms 压缩至 12.25ms;
  • PCIe 带宽受限集群 MoE 场景下,加速比达 49.84 倍。

甄羿:Triton 是国产 DSA 的“破局之刃”,仍需生态打磨

甄羿(蚂蚁集团技术专家)表示,Triton 极大降低了国产 DSA 芯片接入门槛,但其原生 GPU 编程模型与 DSA 存在“映射错位”,后端工具链尚不成熟,导致直接迁移性能不佳。

蚂蚁团队利用 TLE 突围:TopK 算子通过桶排序规避硬件指令短板;KV Cache 融合算子改变切分方式并引入 Double Buffer,性能从 2400us 优化至 50.13us,跃升超 40 倍,逼近手写 Native 极限。

甄羿呼吁共建“评测-优化-开源”正向循环,强调与 FlagOS 社区合作避免重复造轮子,推动国产 AI 软硬件生态从“单点突破”走向“全面繁荣”。

马永强:飞桨原生支持 Triton,大模型算子一键迁移

马永强(百度资深工程师)介绍,飞桨(PaddlePaddle)通过原生编译器支持 import triton,开发者现有 Triton Kernel 代码仅需一行声明即可在飞桨中运行,复用社区丰富算子资产。

飞桨 CustomDevice 机制已高效支撑 10+ 家硬件厂商、25+ 款芯片接入。结合 WINT2 极致量化与 CUDA Graph 图优化,文心 4.5(300B)模型推理吞吐量(TPS)达 276.42,较主流开源推理引擎提升 40%。GraphNet 自动化验证体系与 PaddleAPITest 算子正确性验证工具,确保“GPU 收敛后,跑通即收敛”,消除国产硬件稳定性顾虑。

海纳:摩尔线程深度适配 FlagTree,三大“特化”技术榨干国产 GPU 性能

海纳(摩尔线程编译器首席架构师)揭示三大性能密码:

  • Linear Layout:建立物理硬件与逻辑数据关系,大幅提升访存效率;
  • Warp Specialization:分工专责——部分线程专注搬运、部分专注计算,配合异步拷贝能力,使计算单元持续满载;
  • 显式流水线控制:基于 TLE 标准,实现工厂流水线式高效运转,有效掩盖数据读取延迟。

海纳强调,摩尔线程未来将全面拥抱并 Follow 智源发布的 TLE 标准,“不希望开发者为适配摩尔线程学习新语言”。

刘广:KernelGen v1.0 发布,“Code is cheap”,验证才是护城河

刘广(智源系统智能研究组负责人)提出:“Code is cheap, show me your test。” KernelGen v1.0 是 AI 驱动的 Triton 算子自动生成与验证平台,构建“生成-反馈-验证”全自动闭环:

  • 用户输入数学公式或自然语言描述,平台自动生成 Triton 代码,并以 PyTorch 原生实现为 Ground-Truth 进行正确性比对与性能测试;
  • 最快 120 秒完成需求输入到可用代码生成;
  • 66% 自动生成算子性能超过 0.8 倍手写 CUDA,部分超越手写 Triton。

KernelGen 核心价值在于基于 PyTorch 的多芯片确定性验证机制。路线图明确:近期支持批量算子生成与性能自优化,覆盖 8 款芯片后端评测;最终目标开源超 1000 个自动生成算子,算子开发效率提升一个量级,实现秒级生成,“让算子开发像写 Python 一样简单”。

Triton 最佳实践分论坛:九位专家拆解核心用法与优化思路

邵恩:构建中立可控的 SYCL 生态,缓解异构碎片化

邵恩(中科院计算所高级工程师)指出,构建中立、可控的 SYCL 生态是打破垄断、缓解国产芯片生态碎片的重要路径。其团队成果包括:

  • 首个由社区贡献的 AMD GPU SYCL 支持模块,被 Intel oneAPI 社区采纳(CTS 适配度超 90%);
  • 首个支持 Apache TVM 的 SYCL 后端,被 TVM 社区采纳入主分支;
  • 通用优化技术覆盖多租户场景时延/吞吐平衡、Thread Block 间数据依赖挖掘、算子融合范围拓展等。

朱天阳:TLE 分层设计实现跨架构适配与性能优化

朱天阳(中科加禾研发总监)详解 TLE 分层设计:

  • TLE-Lite:抽象硬件无关基础算子;
  • TLE-Struct:封装硬件特性为可调参数,在统一框架下兼顾通用性与性能;
  • 当前已覆盖 Buffer/Layout/Math/Scope/Pipeline/Slice/Sync 等模块,支持 to_tensor/to_buffer 与原生 Triton 混合使用;
  • DS-v3.2-Exp 模型实测:kv_rmsnorm_rope 性能提升 1.4 倍(达 CANN 原生 95%),SparseFA 提升超 8 倍。

郭依蓬:AscendNPU IR 完备表达昇腾,开源支持多语言接入

郭依蓬(华为昇腾 CANN 生态技术专家)介绍 AscendNPU IR 多级抽象设计:

  • HFusion:多维度融合抽象层,降低三方框架对接难度,提供 Tensor 级融合能力;
  • HIVM:硬件抽象层,完备表达昇腾执行细节,覆盖分核架构、计算/同步/搬运操作、内存资源管理;
  • 已通过 Triton-Ascend 兼容社区特性与开发范式,联合 FlagTree 构建高效算子生态,实现 140+ 昇腾高性能算子落地;
  • AscendNPU IR 与 Triton-Ascend 已全面开源(https://gitcode.com/Ascend/AscendNPU-IR、https://gitcode.com/Ascend/triton-ascend),配套文档、样例与社区资源齐备。

柴赟达:面向 Triton 编译器的跨架构编译优化实践

柴赟达(先进编译实验室基础编译部部长)分享 Triton 全链路优化策略:

  • 算子生成:自动生成依托 TorchDynamo/AOT Autograd/PrimTorch;手工实现需定义功能、编写与封装;
  • 编译优化
    • DSA:利用 Triton-Linalg 和 Hint 注释优化 DMA 调度与共享内存分配;
    • 昇腾:通过 FlagTree 中间 IR Pass 兼容 Triton-Ascend 与 LLVM 版本差异;
    • CPU:结合 LLVM 向量化与 OpenMP 提升吞吐;
    • GPU:优化访存合并、张量核心分块配置与代数变换。

郭晖:TLE 三层扩展满足多样化开发者需求

郭晖(智源 AI 编译器研究员)阐释 TLE 设计理念:

  • TLE-Lite:硬件无关,轻量扩展,适合算法工程师快速迭代;
  • TLE-Struct:引入架构感知,显式暴露并行与存储结构,支持精细布局与策略定义;
  • TLE-Raw:支持内联 MLIR/PyCUDA,直接生成目标指令,供性能专家追求极致控制。

DSA 适配对应:TLE-Lite 降低重复开发成本;TLE-Struct 进行硬件聚类与共性抽象;TLE-Raw 支持厂商原生管线快速响应新特性。

张先轶:基于 FlagGems 的运行时调优与算子极致优化

张先轶(澎峰科技创始人兼 CEO)以 libtriton_jit 重构为例,分享高性能算子库优化实践:

  • 采用 Policy-Based Design(编译时多态),消除解释器开销与调度延迟;
  • wrapper 延迟显著下降,整体性能提升 2.5–4 倍;小算子平均延迟仅 11.69 μs(快 43%);
  • mm 算子引入 TMA 优化,扩大 Triton Autotuning 搜索空间;Kron/argmin/gelu_backward/glu_backward 等算子通过 Block_size 调整实现更高加速比。

吴伟:FlagOS on RISC-V 现状及规划

吴伟(上海苦芽科技联合创始人)指出,RISC-V 已逐步成为 AI 与智算芯片领域的“默认 ISA”。FlagOS 全面拥抱 RISC-V 基于四大考量:产业趋势(NVIDIA/Google/Meta 等已引入)、AI 加速器架构适配(SpacemiT K1/Tenstorrent/MTIA)、生态成熟(Ubuntu/Debian/OpenEuler 支持)、扩展性强(RVV 及 AME/IME/VME 为 HPC 奠基)。

技术路线图:

  • 2026 年:1–4 月完成 FlagTree 对 RV64GC 后端支持;8 月前实现 RVV 1.0 适配;年底前适配 SG2044/A210 等平台;
  • 2027 年 5 月:完成 IME/AME 实验性支持,实现 RVA23 完整支持,生态成熟度接近 Arm64;
  • 依托“甲辰计划”与 FlagOS 社区,通过开源实习生机制连接香山、乘影等硬件社区,服务全球 RISC-V 生态。

王锋:Triton 编译优化与 FlagGems 算子性能提升

王锋(湖南卡姆派乐信息科技有限公司总经理)对比 Transformer Engine(TE)与 Triton Distributed(TD)两大分布式方案:

  • TE 依托 PyTorch Distributed NCCL 后端,支持 FP8 混合精度与通信重叠;
  • TD 基于 NVSHMEM,通信性能优于 Torch。

优化成果:

  • Shared Memory Hint 注解显式指定数据加载,为共享内存紧张场景提供新调度空间;
  • SPLIT-K 策略二次切分 K 维,大 K 场景减少指令、小 K 提升并行;
  • H100 GPU 上,Triton 与 TileLang 性能差距由 25.58%–39.65% 缩小至基本持平。

李先铎:基于 FlagOS 的多芯片统一后端插件设计与实践

李先铎(智源 AI 框架研发工程师)介绍 FlagOS 统一后端插件架构:

  • 以 FlagGems 算子库与 FlagCX 通信库为核心,构建高可扩展插件化体系;
  • 两层 Dispatch 机制:
    • Language Dispatch:灵活选择 FlagOS 原生 Op 或厂商 Op,无缝接入高性能计算库;
    • Op Dispatch:支持 FlagOS Op 中的 Kernel 在多芯片后端运行。
  • 实践成效:英伟达芯片上 Qwen3-16B 分布式训练 Triton Kernels 覆盖率达原生 80%;海光、昆仑芯、寒武纪等国产芯片均已成功接入;
  • 未来方向:推进 Triton 融合算子研发,实现显存优化、降低 Kernel 启动开销、支持分布式大 OP 计算与通信重叠调度;适配更多 Dense/MoE 模型与新型架构,通过精度测试、性能基准体系与 OpManager 策略,实现算子粒度动态选择与自动化适配。

三大实战工作坊:理论与工程实践深度链接

下午场设三场技术工作坊,强化开发者动手能力:

  • “人机协作”的 Triton 算子开发:智源研究院陶健、韩冬煦现场演示 KernelGen v1.0 如何将自然语言需求转化为经自动化验证的高性能 Triton 代码;
  • FlagOS-AI 编译器实战:原点代码 CTO 宫文学带领 Live Coding,系统剖析从前端算子到 IR、再到后端代码生成的全流程;
  • 基于 FlagOS 的具身一站式平台:智源研究院敖玉龙、潘腾飞展示具身智能从机器人数据采集到国产算力上模型训练的完整工程闭环。

TritonNext:始于一行代码,成于众人之智

从上午的架构前瞻,到下午的代码实战,2026 TritonNext 技术大会诠释了“众智”的力量。“一次编写,处处运行”正在成为现实;AI 自动生成并验证算子已切实可行;开发者正通过统一开源社区协同攻克异构硬件壁垒。

KernelGen 将算子开发门槛降至“分钟级”,FlagTree 让跨芯迁移成本缩短至“天级”,Triton-Distributed 将分布式编程化繁为简——工具的进化正将开发者从繁琐底层适配中解放,回归最具创造力的算法与应用创新。AI 系统软件的未来,正由每一位被赋能的开发者亲手构建。

【声明】内容源于网络
0
0
AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
内容 6838
粉丝 0
AI科技大本营 为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
总阅读49.8k
粉丝0
内容6.8k