九源统一领域编程语言(九齿)现已实现对 TileLang 的支持!
我们已完成原型编译器,实现了将以 TileLang 编写的矩阵乘法等关键计算内核高效编译至九齿的中间表示(IR),并进一步转化为优化的 Triton 代码,进而使其能够无缝运行于包括 NVIDIA GPU 和多款国产智能芯片在内的广泛硬件平台。此举标志着九源在构建统一智能计算软件栈上迈出了关键一步,大幅降低了国产平台基础编译设施的研发负担。
性能评估
图1 在 RTX 4060 Laptop GPU 上的性能对比
九源领域编程语言-九齿
九齿是一门基于 Triton 的领域特定语言(DSL),旨在进一步简化高性能计算内核的开发。它通过引入面向张量的元编程(tensor-oriented metaprogramming),抽象掉了指针算术运算和内存访问等底层细节,能够降低并行编程的门槛。九齿能够让开发者使用少量简洁的代码实现较高性能的计算内核,并且可以提高代码的可读性和可维护性。
TileLang
TileLang 是一门面向高性能深度学习算子的领域专用语言(DSL)。它致力于在编程语言层提供结构化表达,用以统一建模算子、调度策略与硬件映射。其核心设计理念是将复杂的硬件调度与开发者的算法逻辑解耦,将调度空间(包括线程绑定、内存布局等)与数据流解耦,并封装为一组可自定义的注解和原语。这使得开发者能更专注于计算内核的数据流本身,而将多数优化工作交由编译器自动完成,显著提升了AI算子的开发效率和可维护性。TileLang 采用 Python 式简洁语法,并提供了分层接口以适应从初学者到硬件专家的不同层次开发者。
Triton
Triton 是一种专为简化高性能深度学习计算内核开发而设计的编程语言和编译器。它允许开发人员使用类似于 Python 的语法编写可编译为高效 GPU 代码的程序,这一特性大大降低了 GPU 代码的开发难度。相较于传统的开发方式,Triton 使得编写与专业库性能相当的高效内核成为可能,且代码更为简洁。
📚 知识充电站
如果你希望持续获取 AI 系统优化、大模型、CUDA 编程等方向的前沿解析与技术干货,欢迎关注我们的公众号 「InfiniTensor」。在这里,我们不仅分享知识,更致力于构建一个共同成长的学习社区。

