在少样本机器学习领域,真实场景中高质量标注数据极其昂贵,成为落地瓶颈。传统微调方法在低资源下易过拟合或产生幻觉,难以应对复杂结构与模糊边界。
最新两项破局技术:GNN作为裁判提纯LLM伪标签,以及多智能体模拟“试验性标注”在分歧中自我进化指令。它们大幅降低对人工标注的依赖,赋予系统在极端数据稀缺下的泛化与自我纠错能力,为低资源应用部署开辟全新道路。
为了给方便大家更好的复现,我给大家准备了完整版的技术资料、代码和复现路径,以及相关论文合集,如有需要可扫码自取!
【ICLR 2026】GNN-AS-JUDGE: UNLEASHING THE POWER OF LLMS FOR GRAPH LEARNING WITH GNN FEEDBACK
关键词: 文本属性图, 少样本半监督学习, 图神经网络, 伪标签, 大语言模型
研究方法
针对文本属性图在少样本半监督节点分类中因缺乏标注导致LLM微调困难的具体问题,本文提出了名为GNN-as-Judge的全新解决方案。该架构利用图神经网络(GNN)的结构归纳偏置作为“裁判”,通过评估LLM与GNN的共识和分歧来提取高质量的伪标签,并结合弱监督偏好微调有效缓解标签噪声,深度协同了图结构与文本语义。
论文创新点
-
• 构建了GNN-as-Judge协同伪标签框架,实现了极低资源如图少样本场景下LLM的有效微调。 -
• 创新地引入了结构影响引导的节点选择策略,解决了图结构中无标签节点价值难以精准评估的瓶颈。 -
• 通过共识与分歧过滤方法,将可靠伪标签的筛选复杂度从O(全图节点遍历)降低到O(高影响力子图计算)。 -
• 首次将弱监督偏好微调(如ORPO)与图节点分类结合,验证了其在抑制困难样本标签噪声中的显著优势。
论文链接: https://arxiv.org/abs/2604.08553v1
【ACL 2026】DiZiNER: Disagreement-guided Instruction Refinement via Pilot Annotation Simulation for Zero-shot Named Entity Recognition
关键词: 零样本学习, 命名实体识别, 指令微调, 多智能体模拟, 信息抽取
研究方法
针对大型语言模型在零样本命名实体识别(NER)中反复出现系统性错误且难以遵循复杂指令的具体问题,提出了名为DiZiNER的创新框架。该框架完美模拟了人类构建黄金数据集的“试验性标注”过程,让多个异构LLM担任标注员,并由监督LLM分析标注分歧、提炼共性错误,在不进行任何参数更新的情况下实现任务指令的自我迭代与升级。
论文创新点
-
• 提出了DiZiNER模拟试验性标注框架,实现了无需任何参数更新的零样本自动化指令进化。 -
• 创新地设计了异构LLM多源标注与分歧诊断机制,解决了大模型对长尾复杂提取指令理解不足的难题。 -
• 通过自动化错误分类与动态指令重组方法,将高质量标注规则的迭代复杂度从O(人工数周)降低到O(自动数分钟)。 -
• 首次将人类“试验性标注”流程与LLM指导优化深度结合,验证了分歧引导策略在零样本IE任务上的SOTA性能。
论文链接: https://arxiv.org/abs/2604.15866v1

