作者信息

作者头像

深度图学习与大模型LLM

关注大模型LLM及其突破性进展。深入探讨大模型在各领域的落地实践与技术挑战，包括提示工程、知识蒸馏、参数高效微调等关键技术。同时关注图机器学习、图表示学习的前沿进展，带来顶会顶刊动态及解读。

2.3k

内容
0

粉丝
976

曝光量

SFT和RL，在后训练中哪个更容易导致遗忘？

SFT和RL，在后训练中哪个更容易导致遗忘？

打个比方，好比我们学会了骑自行车，现在我们给定了很多开汽车的数据，我们的优化目标是拟合开汽车的数据，那么当然会导致在骑自行车上的能力的退化，因为我们的目标并不包含要保持会骑自行车的能力。

AAAI 2026 | "大模型时代的个性化"研讨会火热征稿中!

AAAI 2026 | "大模型时代的个性化"研讨会火热征稿中!

DeepSeek-OCR: 通过视觉压缩突破语言模型的长文本瓶颈

DeepSeek-OCR: 通过视觉压缩突破语言模型的长文本瓶颈

利用视觉token的高压缩比特性来突破文本token数量的限制

以“排序”替代“预测”：Token Order Prediction（TOP）如何改进语言模型训练

以“排序”替代“预测”：Token Order Prediction（TOP）如何改进语言模型训练

该研究以 Token Order Prediction（TOP）为核心贡献，给出了一个轻量、可扩展且与 NTP 强一致的辅助训练目标。通过将“未来词元精确预测”的目标，替换为“未来词元接近度排序”的

RL推理的尽头，是熵坍缩？统一SFT与强化学习的新视角

RL推理的尽头，是熵坍缩？统一SFT与强化学习的新视角

在 LLM 的预训练及微调阶段，scaling law 告诉了我们所能达到效果范围，其中蕴含了深刻的信息论原理

比GPT-5还准？AIME25飙到99.9%刷屏，开源模型首次！

比GPT-5还准？AIME25飙到99.9%刷屏，开源模型首次！

让大模型在推理过程中实时监控置信度，低置信度路径被动态淘汰，高置信度路径则加权投票，从而兼顾准确率与效率。在AIME 2025上，它首次让开源模型无需外部工具便实现99.9%正确率，同时削减85%生成

ICLR2025 || Think-on-Graph 2.0：用知识图谱×文本的紧耦合 RAG，推动 LLM 的深度且可证实推理

ICLR2025 || Think-on-Graph 2.0：用知识图谱×文本的紧耦合 RAG，推动 LLM 的深度且可证实推理

本文介绍的 Think‑on‑Graph 2.0（ToG‑2）提出了一种将结构化知识与非结构化文本紧密耦合的混合式 RAG 框架

GEPA优化提示词，效果也能超越GRPO

GEPA优化提示词，效果也能超越GRPO

比传统强化学习（如GRPO）性能最高提升 19%。

探索几何之美：KDD 2025双曲几何基础模型/大模型Tutorial

探索几何之美：KDD 2025双曲几何基础模型/大模型Tutorial

这不仅仅是一场Tutorial，更是一次思维的碰撞和学术的盛宴。在人工智能向更高层次发展的关键时刻，双曲几何学习为我们提供了全新的视角和工具。

Refine-POI: 基于强化学习微调的大模型用于POI推荐

Refine-POI: 基于强化学习微调的大模型用于POI推荐

Refine-POI作为首个将强化微调应用于下一POI推荐任务的框架，成功解决了传统方法的根本性挑战。研究开发的位置感知轨迹提示充分发挥了大模型的地理知识优势，推荐驱动奖励机制创新性地实现了仅用单个真

<

1

2

3

...

233

>