搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
NeuralTalk
认领
若您是该账号的归属人,或您是该组织的成员,可
申请认领
关注
在线咨询
关注深度学习框架开发、模型压缩、低比特量化、移动端推理加速性能优化、工程化部署,v: zhushi202409
517
内容
0
粉丝
758
曝光量
AMD MI300X GPU 计算、内存、通信性能分析
本文全面评估 AMD MI300X GPU,对比 NVIDIA H100/B200,从计算、内存、通信维度用微基准与 Llama 70B 测试,发现其理论算力高但实际 LLM 推理仅达 H100 的
1周前
8-Wave Ping-Pong 调度赋能 HipKittens:AMD GPU Kernel 3× 超越 Triton 编译器
本文针对AMD GPU AI内核开发痛点提出HipKittens框架,首次验证tile编程抽象向 AMD 的迁移,创新采用 8-wave ping-pong调度、显式寄存器调度等技术,CDNA3/4平
1周前
Warp Specialization在 GEMM Kernel 中的性能建模与优化:仿真工具与 ≤21.5% 最大预测误差
本文提出warp特化内核性能模型,以微分方程刻画GeMM-WS内核DMA与计算时序,开发Python仿真工具与Z3 SMT优化器。NVIDIA A6000测试中,模型预测误差4.5%,优化器分钟级获最
1周前
通过 GPU 尾效应分析,重新思考 DNN 的设计与延迟!让多架构模型延迟降 11%-27%且吞吐量提 1.6×
本文指出深度神经网络模型剪枝与神经架构搜索虽能减少计算量,却难持续降低 GPU 推理延迟,在于“GPU 尾效应”即最后一个处理波次资源未充分利用。发现模型深度结构与轻量级层工作负载会加剧该效应,导致延
2周前
NVIDIA 技术博客:削弱 CUDA 尾效应:优化内核从 4.535ms 降至 3.825ms,性能提升 19%
NVIDIA 发布的这篇 CUDA 优化指南,聚焦“尾效应”对 GPU 性能的影响及解决方案。众所周知,该问题优化涉及 SM Warp 占用率,尾效应是一个无法避免的问题,NeuralTalk 对原文
2周前
理解并优化 CUDA Occupancy
本文将深入探讨占用率的定义、重要性,以及 GPU 流多处理器(SM)上的资源限制对占用率的影响。我们还将探讨如何通过理解资源分配,帮助 CUDA 开发人员编写更高效的 GPU Kernel 函数。
3周前
历史在不断重演:NVIDIA SM 架构的颠覆性创新之路
本文聚焦2006-2018年NVIDIA流多处理6代架构演进,从Tesla到Turing,以统一架构、SIMT等创新为核心,工艺从90nm精进至12nm,核心数128增至4352,算力从345.6Gf
4周前
100% GPU 利用率陷阱:SM 效率监控+内核融合让 LLM MFU 从 20%飙升至 38%
GPU 利用率核心缺陷是仅衡量 “过去采样周期内 GPU 是否有Kernel执行”,不反映是否充分利用或工作负载并行度,极端情况下纯内存读写就能拉满该指标。而 SM 效率能更精准反映 GPU 实际算力
1个月前
面向 LLM 的 MXFP4 专属 PTQ 方案:BRQ 策略实现跨模型量化精度提升与 40% 推理提速
LLM规模化存高存储与计算成本,但PTQ的W4A4量化准确性低,MXFP4适配长尾分布且软硬件兼容但缺专属PTQ方法。评估显示全局旋转基方法与其实质冲突致性能暴跌,本文提出BRQ策略提升精度,性能较全
1个月前
面向有依赖Kernels的细粒度并行通用加速器Squire:7.6倍提速与56%能耗降低!
本文提出 Squire 通用加速器,旨在解决依赖受限内核难以有效利用细粒度并行性的问题。提出为多核系统中每个核心配备一个加速器,包含低功耗有序工作核心,可直接访问 L2 缓存并通过硬件同步模块实现快速
1个月前
<
1
2
3
...
52
>