搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
ai算法芯片与系统
认领
若您是该账号的归属人,或您是该组织的成员,可
申请认领
关注
在线咨询
长期关注ai领域,算法,芯片,软件(系统,框架,编译器,算子库)等联合设计
196
内容
0
粉丝
68
曝光量
结构化控制流 vs 跳转指令:编译器IR设计的核心权衡
主流IR(如LLVM)基于基本块与跳转,灵活且贴近硬件。替代方案是结构化IR(如MLIR SCF),禁用跳转,仅用if/while原语,优势:简化分析与变换;劣势:转换开销、表达力受限。在特定领域(多
4天前
LLM中的KV缓存与预填充阶段:核心技术详解
LLM推理包含预填充和解码阶段,KV缓存是提升效率的核心技术。本文解析KV缓存原理,展示其如何减少注意力计算冗余,并通过代码示例讲解实现,助力加速文本生成。
6天前
理解并实现LLM中的KV缓存:从零开始的完整指南
KV缓存是大语言模型高效推理的关键技术,通过存储和重用注意力机制中的键和值向量,显著减少重复计算,提升文本生成速度。本文从零开始,提供可读性强的完整代码实现,涵盖概念基础、实现细节、性能影响及优化策略
6天前
常见的可以使用as_strided或者strided_copy高效实现的tensor操作
常见的 tensor/ndarray 操作可通过 as_strided 或 strided_copy 高效实现,包括切片、转置、窗口提取和张量拼接等。这些操作通过调整跨步和偏移量,避免数据复制,提升内
6天前
NDArray高级内存操作:跨步视图与跨步复制机制
本文解析 NDArray 的 as_strided 和 strided_copy 操作,揭示内存管理技巧。介绍内存视图与复制概念,分析核心数据结构,对比两者实现原理与使用场景,给出性能优化建议。
6天前
深度解析Swin Transformer:架构与关键运算
Swin Transformer 通过层次化架构与移位窗口注意力机制,解决了 ViT 在高分辨率图像处理中的效率和多尺度建模问题。本文解析图像块合并构建特征金字塔的方法,重点阐述移位窗口注意力及其高效
1周前
CUTLASS 3.x:面向GEMM核函数设计的正交、可复用与可组合抽象
CUTLASS 3.x 通过分层、可组合的模块化设计,利用超参数优化 GEMM 性能,支持新架构。本文深入探讨其设计原则及基于 CuTe 的核函数构建。
1周前
C++模板编译原理:从泛型到具体代码的编译器内部机制
本文分析C++模板编译机制,展示特化、实例化和隐式实例化算法,结合代码示例、列表、表格和流程图展示嵌套模板编译过程,涵盖实例化缓存和特化匹配算法。
1周前
TensorIR 变换实战:从基础实现到高性能优化
本文详细介绍了如何将基础的TensorIR实现通过系统化的变换方法优化为高性能版本。以批处理矩阵乘法接ReLU激活函数为例,我们将展示完整的变换流程,包括循环分割、重排序、计算位置调整、归约分解以及向
1周前
从抽象语法树到Sea-of-Nodes:编译器中间表示的演进与优化
编译器是现代软件工程的核心工具,它将源代码翻译成机器指令。这一过程通过多种中间表示完成,包括抽象语法树、数据流图、控制流图和Sea-of-Nodes。这些中间表示协同工作,使编译器能执行关键优化,生成
1周前
<
1
2
3
...
20
>