作者信息

作者头像

NeuralTalk

关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署，v: zhushi202409

517

内容
0

粉丝
758

曝光量

AMD MI300X GPU 计算、内存、通信性能分析

AMD MI300X GPU 计算、内存、通信性能分析

本文全面评估 AMD MI300X GPU，对比 NVIDIA H100/B200，从计算、内存、通信维度用微基准与 Llama 70B 测试，发现其理论算力高但实际 LLM 推理仅达 H100 的

8-Wave Ping-Pong 调度赋能 HipKittens：AMD GPU Kernel 3× 超越 Triton 编译器

8-Wave Ping-Pong 调度赋能 HipKittens：AMD GPU Kernel 3× 超越 Triton 编译器

本文针对AMD GPU AI内核开发痛点提出HipKittens框架，首次验证tile编程抽象向 AMD 的迁移，创新采用 8-wave ping-pong调度、显式寄存器调度等技术，CDNA3/4平

Warp Specialization在 GEMM Kernel 中的性能建模与优化：仿真工具与 ≤21.5% 最大预测误差

Warp Specialization在 GEMM Kernel 中的性能建模与优化：仿真工具与 ≤21.5% 最大预测误差

本文提出warp特化内核性能模型，以微分方程刻画GeMM-WS内核DMA与计算时序，开发Python仿真工具与Z3 SMT优化器。NVIDIA A6000测试中，模型预测误差4.5%，优化器分钟级获最

通过 GPU 尾效应分析，重新思考 DNN 的设计与延迟！让多架构模型延迟降 11%-27%且吞吐量提 1.6×

通过 GPU 尾效应分析，重新思考 DNN 的设计与延迟！让多架构模型延迟降 11%-27%且吞吐量提 1.6×

本文指出深度神经网络模型剪枝与神经架构搜索虽能减少计算量，却难持续降低 GPU 推理延迟，在于“GPU 尾效应”即最后一个处理波次资源未充分利用。发现模型深度结构与轻量级层工作负载会加剧该效应，导致延

NVIDIA 技术博客：削弱 CUDA 尾效应：优化内核从 4.535ms 降至 3.825ms，性能提升 19%

NVIDIA 技术博客：削弱 CUDA 尾效应：优化内核从 4.535ms 降至 3.825ms，性能提升 19%

NVIDIA 发布的这篇 CUDA 优化指南，聚焦“尾效应”对 GPU 性能的影响及解决方案。众所周知，该问题优化涉及 SM Warp 占用率，尾效应是一个无法避免的问题，NeuralTalk 对原文

理解并优化 CUDA Occupancy

理解并优化 CUDA Occupancy

本文将深入探讨占用率的定义、重要性，以及 GPU 流多处理器（SM）上的资源限制对占用率的影响。我们还将探讨如何通过理解资源分配，帮助 CUDA 开发人员编写更高效的 GPU Kernel 函数。

历史在不断重演：NVIDIA SM 架构的颠覆性创新之路

历史在不断重演：NVIDIA SM 架构的颠覆性创新之路

本文聚焦2006-2018年NVIDIA流多处理6代架构演进，从Tesla到Turing，以统一架构、SIMT等创新为核心，工艺从90nm精进至12nm，核心数128增至4352，算力从345.6Gf

100% GPU 利用率陷阱：SM 效率监控+内核融合让 LLM MFU 从 20%飙升至 38%

100% GPU 利用率陷阱：SM 效率监控+内核融合让 LLM MFU 从 20%飙升至 38%

GPU 利用率核心缺陷是仅衡量 “过去采样周期内 GPU 是否有Kernel执行”，不反映是否充分利用或工作负载并行度，极端情况下纯内存读写就能拉满该指标。而 SM 效率能更精准反映 GPU 实际算力

面向 LLM 的 MXFP4 专属 PTQ 方案：BRQ 策略实现跨模型量化精度提升与 40% 推理提速

面向 LLM 的 MXFP4 专属 PTQ 方案：BRQ 策略实现跨模型量化精度提升与 40% 推理提速

LLM规模化存高存储与计算成本，但PTQ的W4A4量化准确性低，MXFP4适配长尾分布且软硬件兼容但缺专属PTQ方法。评估显示全局旋转基方法与其实质冲突致性能暴跌，本文提出BRQ策略提升精度，性能较全

面向有依赖Kernels的细粒度并行通用加速器Squire：7.6倍提速与56%能耗降低！

面向有依赖Kernels的细粒度并行通用加速器Squire：7.6倍提速与56%能耗降低！

本文提出 Squire 通用加速器，旨在解决依赖受限内核难以有效利用细粒度并行性的问题。提出为多核系统中每个核心配备一个加速器，包含低功耗有序工作核心，可直接访问 L2 缓存并通过硬件同步模块实现快速

<

1

2

3

...

52

>