大数跨境
0
0

大模型安全论坛@MLNLP2025

大模型安全论坛@MLNLP2025 机器学习算法与自然语言处理
2025-11-12
22
导读:大模型安全论坛@MLNLP2025
图片

“第四届机器学习算法与自然语言处理大会”(MLNLP2025)将于2025年11月29日-11月30日线上召开,大会由中国中文信息学会青工委、中国中文信息学会大模型与生成专委、MLNLP社区联合主办,智源社区提供社区支持。大会免费注册

本文为大家详细介绍大模型安全论坛。
1

论坛主席


图片

董胤蓬

清华大学人工智能学院助理教授

董胤蓬,清华大学人工智能学院助理教授。在TPAMI、IJCV、CVPR、NeurIPS等期刊和会议上发表论文60余篇,谷歌学术引用12000余次,担任ICLR、ICML、NeurIPS领域主席。曾获得CCF优秀博士学位论文、清华大学优秀博士后、微软学者奖学金、百度奖学金等,连续4年入选全球前2%顶尖科学家榜单。


图片

翟胜方

新加坡国立大学博士后研究员

翟胜方,新加坡国立大学博士后研究员,2025年博士毕业于北京大学。主要研究方向为扩散模型、生成式模型安全与隐私。


2

报告及讲者介绍


图片

包世龙

中国科学院大学博士后/特别研究助理

包世龙,中国科学院大学博士后/特别研究助理,研究方向为机器学习、人工智能基础理论与安全,在 CCF-A 类期刊/会议上发表论文 20余篇 (一作论文 7 篇),其中TPAMI 8 篇 (IF: 18.6,一作 TPAMI 论文 4 篇)等。先后获得“ACM中国SigMM优博(共3人)”“北京图象图形学学会优博(共5人)”、“中国科学院百篇优博”等荣誉;主持青年基金(C类)、国家资助博士后研究人员计划(B档)、博士后面上资助以及中科院特别研究助理资助项目等。

报告主题:Towards Harmless Multimodal Generation: Challenges and Preliminary Pathways

报告摘要:Generative AI is reshaping digital creation, but its potential for harmful generation remains a bottleneck to real-world deployment. This talk reports our early efforts toward harmless generation along three strands: (i) avoiding harmful content via targeted model unlearning; (ii) mitigating generation bias with lightweight fair interventions; and (iii) exposing backdoor vulnerabilities to inform robust defenses. Across empirical studies, these directions preserve utility while showing encouraging effectiveness, pointing to promising avenues for future work.



图片

崔诗尧

清华大学交互式人工智能(CoAI)课题组博士后

崔诗尧,清华大学交互式人工智能(CoAI)课题组博士后,研究方向是大模型安全与对齐,多次在国际国内大模型安全竞赛中获得第一名的成绩,在ACL、SIGIR、ACM MM、TASLP等顶级会议和期刊发表论文三十余篇,成果多次支撑国家部委业务需求。主持国家自然科学青年基金C类、博士后面上基金项目、国家资助博士后研究人员计划等。

报告主题:大模型安全风险机制分析与新兴风险评估研究

报告摘要:大型语言模型(LLMs)的广泛应用引发了对其安全性的高度关注。尽管已有多种攻击手段揭示了模型的潜在脆弱性,但针对不同模型中攻击成因的机理仍缺乏系统性研究,难以有效支撑防御机制的构建。深入探讨攻击的可解释性及其跨模型迁移性,是揭示脆弱性根源与厘清风险边界的关键路径。与此同时,模型能力不断增强、应用环境日益复杂,促使新型风险持续涌现,亟需构建科学、可量化的安全评估框架与度量方法。本报告围绕攻击的可解释性与迁移性展开系统分析,并提出面向新兴风险的评估体系与方法,旨在为大模型的安全防护与风险治理提供理论支撑与方法依据。



图片

加小俊

新加坡南洋理工大学博士后

加小俊,现任新加坡南洋理工大学博后(Research Fellow)。2023 年博士毕业于中国科学院大学。研究方向聚焦于可信人工智能,尤其是对抗攻防、模型后门与大模型安全等领域。迄今已在 ICML、NeurIPS、ICLR、CVPR、ICCV、IEEE TPAMI、IEEE TIFS、IEEE TIP 等人工智能与安全相关的国际顶级会议和期刊发表学术论文 40 余篇,其中以第一作者身份发表 11 篇(含 2 篇 TPAMI、1 篇 CVPR Oral),以通讯作者身份发表 15 篇(含 1 篇 TPAMI)。谷歌学术引用次数超过 2300 次,多次在国际人工智能对抗攻防竞赛中获得前三名。其研究成果已在腾讯、阿里巴巴、绿盟科技、Scantist 等企业落地应用,并支撑公安部第三研究所人工智能数据安全平台建设,获得正式感谢。作为核心成员,他还参与了国内主流大模型商业化版本的内容安全测试。学术服务方面,现任《Pattern Recognition》期刊编委(Associate Editor),AAAI-26 AIA 领域主席,以及TPAMI、IJCV、TIFS、TDSC等期刊审稿人,并积极推动学术社区建设,发起了 2024 全球大模型安全挑战赛(联合 AI Singapore 举办)和 DataCon 红队评测赛。个人主页: https://jiaxiaojunqaq.github.io/

报告主题:The Dual Threats of Multimodal Large Models: An In-Depth Exploration from Adversarial to Jailbreak Attacks

报告摘要:As multimodal large language models (MLLMs) rapidly evolve, their integration of vision and language introduces new and complex security vulnerabilities. This presentation provides a comprehensive overview of recent advances in understanding and mitigating the dual threats that challenge the safety of large models—adversarial manipulation and jailbreak prompting. We systematically analyze how subtle input perturbations and semantic prompt manipulations can compromise model alignment, expose unsafe behaviors, and undermine trust in generative systems. Through extensive empirical evaluation across both open-source and closed-source models, we demonstrate the fragility of current safety mechanisms and the limitations of existing defenses. Our findings highlight fundamental patterns shared across modalities and model architectures, offering new insights into transferable attack dynamics and the urgent need for unified safety benchmarks.




图片

段然杰

清华大学与阿里巴巴集团联合培养博士后

段然杰,现为清华大学与阿里巴巴集团联合培养博士后(2023年至今),师从朱军教授,薛晖博士,聚焦可信人工智能前沿研究。2023年起担任阿里巴巴系列大模型红队负责人,主导及开发各种红队测试方法,用于测试阿里系大模型(通义千问、淘宝星辰等)安全性、可靠性等等,并在此期间发表多篇顶级会议论文。2025年起领导阿里巴巴安全部生蚝系列模型,提出在大模型治理时模型和人类的协同作用,并共同构建向善价值观,提出的模型理念“知无不言言必向善”,并将相应技术应用在阿里系模型中。 已在计算机视觉与机器学习领域顶级会议CVPR、ICCV、NeurIPS、ICLR及旗舰期刊TPAMI、TIFS等发表论文20余篇,其中多篇入选Oral/Spotlight报告。持续为CVPR、ICLR等顶会及TPAMI等SCI一区期刊提供学术评议。

报告主题:AGI的成年之路:安全、可信与未来共生

报告摘要:随着大型语言模型不断提升智能水平,我们该如何确保它始终沿着“向善”的航道前行?通用人工智能(AGI)的崛起,标志着一个智能新时代的到来,同时也对我们如何确保其安全、可信并实现未来共生提出了前所未有的挑战。本报告站在阿里巴巴AI安全的前沿实践,提出了“AI安全海洋生态”的概念—— “AI是承载文明发展的陆地,AI安全则是定义其边界的海洋”。我们不再局限于单一的防御技术,而是从一个更宏观、更具生命力的角度,深入研究构成AI安全防线的关键组成部分。报告详细阐述了借鉴海洋生物特性的核心组件:牡蛎(Oysters)如何实现输入到输出的价值对齐;贝壳(Shells)如何提供基础、轻量级的防护;海带(Kelp)如何进行内容过滤与行为引导;章鱼(Octopus)如何通过多维度探测发现潜在风险;鲨鱼(Sharks)如何模拟攻击以测试模型鲁棒性;以及水母(Jellyfish)如何实现模型的可解释性洞察。这些组件协同作用,共同构建了一个自净化、自适应、自修复的智能安全防护体系。本报告旨在为构建一个开放、协同、可持续的大模型安全治理体系提供深刻的方法论支撑和前沿的实践范式,启发AI安全治理从“被动响应”走向“主动生态共治”,为AGI的健康发展奠定安全可信的基石。


3

报名注册及会议交流群


报名注册

图片

扫描二维码,进行会议注册

会议

交流群

图片

扫描二维码,进入微信群


点击阅读原文,到达大会官网。

【声明】内容源于网络
0
0
机器学习算法与自然语言处理
1234
内容 8767
粉丝 0
机器学习算法与自然语言处理 1234
总阅读75.2k
粉丝0
内容8.8k