搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
深度图学习与大模型LLM
认领
若您是该账号的归属人,或您是该组织的成员,可
申请认领
关注
在线咨询
关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战,包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展,带来顶会顶刊动态及解读。
2.3k
内容
0
粉丝
976
曝光量
SFT和RL,在后训练中哪个更容易导致遗忘?
打个比方,好比我们学会了骑自行车,现在我们给定了很多开汽车的数据,我们的优化目标是拟合开汽车的数据,那么当然会导致在骑自行车上的能力的退化,因为我们的目标并不包含要保持会骑自行车的能力。
3周前
AAAI 2026 | "大模型时代的个性化"研讨会火热征稿中!
1个月前
DeepSeek-OCR: 通过视觉压缩突破语言模型的长文本瓶颈
利用视觉token的高压缩比特性来突破文本token数量的限制
1个月前
以“排序”替代“预测”:Token Order Prediction(TOP)如何改进语言模型训练
该研究以 Token Order Prediction(TOP)为核心贡献,给出了一个轻量、可扩展且与 NTP 强一致的辅助训练目标。通过将“未来词元精确预测”的目标,替换为“未来词元接近度排序”的
3个月前
RL推理的尽头,是熵坍缩?统一SFT与强化学习的新视角
在 LLM 的预训练及微调阶段,scaling law 告诉了我们所能达到效果范围,其中蕴含了深刻的信息论原理
3个月前
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成
3个月前
ICLR2025 || Think-on-Graph 2.0:用知识图谱×文本的紧耦合 RAG,推动 LLM 的深度且可证实推理
本文介绍的 Think‑on‑Graph 2.0(ToG‑2)提出了一种将结构化知识与非结构化文本紧密耦合的混合式 RAG 框架
4个月前
GEPA优化提示词,效果也能超越GRPO
比传统强化学习(如GRPO)性能最高提升 19%。
4个月前
探索几何之美:KDD 2025双曲几何基础模型/大模型Tutorial
这不仅仅是一场Tutorial,更是一次思维的碰撞和学术的盛宴。在人工智能向更高层次发展的关键时刻,双曲几何学习为我们提供了全新的视角和工具。
4个月前
Refine-POI: 基于强化学习微调的大模型用于POI推荐
Refine-POI作为首个将强化微调应用于下一POI推荐任务的框架,成功解决了传统方法的根本性挑战。研究开发的位置感知轨迹提示充分发挥了大模型的地理知识优势,推荐驱动奖励机制创新性地实现了仅用单个真
5个月前
<
1
2
3
...
233
>