北航彭浩团队提出SIAMD框架:基于结构信息原理的主动社交机器人检测方法
本文介绍北京航空航天大学彭浩老师团队发表于IEEE TPAMI 2025的论文《Proactive Bot Detection Based on Structural Information Principles》。
论文链接:https://ieeexplore.ieee.org/document/11311341
代码开源地址:https://github.com/SELGroup/SIAMD
研究背景与核心贡献
社交机器人持续进化,其模仿人类行为与规避检测的能力不断增强,对虚假信息治理与平台生态健康构成严峻挑战。针对该问题,研究团队提出基于结构信息原理的对抗性检测框架 SIAMD,首次将结构熵建模、多关系图演化与大语言模型(LLM)协同生成深度融合,实现对机器人行为的主动建模与鲁棒检测。
SIAMD的核心创新在于: • 构建统一异质图建模用户账户与社交消息的多类型交互; • 提出多关系结构熵量化账户社区内不确定性,并通过编码树优化揭示分层结构; • 联合驱动网络结构演化(社交活动判定+目标账户选择)与网络内容演化(LLM提示生成+消息节点注入); • 实现图结构与语义内容的协同对抗演化,显著提升检测器在有效性、泛化性、鲁棒性与可解释性四方面的综合性能。
SIAMD架构解析

SIAMD包含四个递进阶段:
阶段 I:社交网络分析
- 从历史交互中提取用户账户(U)与社交消息(M)构建异质图Gₕ,边集Eₕ涵盖发布、转发、提及、回复、关注五类关系;
- 对账户描述与消息文本分别进行嵌入,获得结构-语义联合表征Xᵤ和Xₘ;
- 将异质图映射为多关系加权图Gₘ=(U, Xᵤ, {Eᵂᵣ}ᵣ∈R, W),定义元路径集合R={f, p, m, rt, rp},并归一化边权重。
阶段 II:网络结构演化
- 基于多关系结构熵建模机器人行为目标:①最小化被黑箱检测器识别的概率;②最大化消息传播影响力;
- 采用多智能体强化学习,在账户社区内模拟未来交互:高层策略πₕ决定机器人交互类型(如转发/提及),低层策略πₗ选择具体目标账户;
- 引入网络影响力ni(u)与行为相关性br(bⱼ,u)双指标,二者均源自结构熵推导,指导目标账户筛选。
阶段 III:网络内容演化
- 基于演化后的结构,为每组“机器人–目标账户–交互类型”三元组构建上下文提示词;
- 提示词融合三类背景:①账户元数据(关注数、描述等自然语言化);②历史高相似度推文(余弦检索);③社交关系图谱(关注/被关注列表);
- 调用LLM生成拟真消息,作为新顶点注入异质图,并按交互类型建立连接,完成内容层面的协同演化。
阶段 IV:检测优化
- 在更新后的异质图上微调初始图神经网络检测器,以对抗方式最大化对建模机器人的识别概率;
- 将优化后模型作为下一轮演化的黑箱检测器,迭代提升主动检测能力。
实验验证
研究在Cresci-15、Cresci-17、TwiBot-20、TwiBot-22四大权威数据集上开展系统评估,对比特征型(BotHunter、SGBot)、内容型(BGSRD、RoBERTa)、图神经网络型(GraphHist、SATAR、BotRGCN、RGT)等前沿基线。
泛化能力

SIAMD在交叉验证各折叠中平均准确率达84.05%(标准差仅5.91),显著优于所有基线;在泛化最弱的Fold-1上仍保持75.1%准确率,证明其对分布偏移具有强适应性。
鲁棒性

面对LLaMA2-70B与ChatGPT驱动的对抗攻击(重写内容+篡改社交结构),SIAMD的准确率与F1分数下降幅度最小,远超其他方法,验证其对抗演化机制的有效性。
可解释性

可视化子社区内三类机器人行为模式:红色机器人高频转发但少原创,易被误判为人;黄色机器人高频表达观点,被稳定识别为机器人;绿色机器人低频交互、双向模仿,体现高隐蔽性。三者目标账户重叠,反映协同操纵意图,印证模型对复杂行为逻辑的可追溯性。
消融实验与敏感性分析

完整SIAMD显著优于仅含结构演化(SIAMD-SE)或内容演化(SIAMD-CE)的变体,证实二者协同的必要性;而SIAMD-CE表现优于SIAMD-SE,凸显结构信息原理在行为建模中的基础作用。此外,更换不同LLM(如LLaMA2、ChatGPT)对性能影响微小,表明框架设计不依赖特定大模型。

