搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
分享
梁文锋署名 DeepSeek 新论文:公开 V3 大模型成本降低方法
2025-05-16 10:22 星期五
梁文锋亲自参与的 DeepSeek 最新研究成果已发布。这一次,团队公开了 DeepSeek-V3 在训练和推理中突破“硬件瓶颈”的方法。 具体来说,DeepSeek-V3 能够仅使用 2048 块 H800 芯片实现与超大规模集群(如数万块 GPU)相当的训练效果,关键在于四项创新技术:内存优化、计算优化、通信优化和推理加速。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群
查看更多
2025-05-16 10:22 星期五
梁文锋署名 DeepSeek 新论文:公开 V3 大模型成本降低方法
梁文锋亲自参与的 DeepSeek 最新研究成果已发布。这一次,团队公开了 DeepSeek-V3 在训练和推理中突破“硬件瓶颈”的方法。 具体来说,DeepSeek-V3 能够仅使用 2048 块 H800 芯片实现与超大规模集群(如数万块 GPU)相当的训练效果,关键在于四项创新技术:内存优化、计算优化、通信优化和推理加速。
下载