2024年2月,谷歌宣布其聊天机器人Bard正式更名为Gemini,此举意在彰显这一新迭代产品是其迄今为止最大、功能最强的AI模型。然而,在发布不到一个月的时间里,Gemini却遭遇了伦理争议的挑战。用户在体验Gemini的人脸合成功能时发现了一个令人警觉的现象:系统似乎在生成白人形象时表现的异常困难,以至于AI在处理请求时拒绝或错误地描绘白人性别、种族乃至宗教等基本特征信息。这一问题可能源自谷歌在努力应对并过度调整其AI系统中长期存在的种族偏见问题所导致的意外后果。
01
什么是大模型的伦理问题?
大语言模型如Google旗下的Gemini等先进的人工智能系统,是一种高度集成复杂计算能力的“智能组件”,它们在众多领域展现出了逼近乃至媲美人类智能的表现,涵盖了数学解析、逻辑推理、医学咨询、法律分析以及编程等诸多应用。然而,在这些强大模型不断突破性能边界的同时,也会不定期暴露其潜在的伦理隐患。大语言模型可能在无意识间吸收并传播有害内容,诸如偏见观念、歧视性言论和有害信息毒素,这些输出结果带有倾向性、不公平性,甚至对特定人群造成情感伤害,被称为大语言模型的伦理问题。
02
大模型伦理问题的影响与危害
在大语言模型的实际应用中,那些可能产生的伦理问题及其带来的影响和危害不容忽视。大语言模型在处理和传播信息时,虽然表面上展现出智能和权威,但实际上它的行为可能与公正和透明的信息处理原则背道而驰。这些伦理问题主要集中于两个层面:
一是,人工智能模型可能会不自觉地吸收并传播那些包含偏见、歧视或有害观点的内容,从而导致不公平的输出结果和对人们情感的伤害;
二是,这些模型在处理个人数据时,可能会侵犯隐私,产生误导性或完全虚假的信息,让用户在阅读和使用这些信息时受到欺骗。
进一步令人担忧的是,这些技术可能被恶意行为者利用,用于制造假新闻、发起网络攻击,甚至是开发危险武器等非法活动,从而加剧社会的不安全感和信任危机。随着大语言模型在众多行业的广泛应用,其伦理挑战也扩展到了环境可持续性、信息真实性、就业市场稳定性等多个重要领域。大语言模型为人类生活带来了诸多便利与创新机遇,但面对其所带来的伦理困境,我们必须严肃对待并采取审慎措施,确保其设计、应用及监管符合严格的道德规范和社会责任,防止无意或有意的滥用造成不可逆的社会风险和公共利益受损。
03
什么是对齐技术?
大语言模型对齐技术实践探索的核心是当我们努力创造能与人类并驾齐驱,甚至在某些方面超越人类的智能机器时,如何确保这些机器的行为和决策始终服务于我们的最佳利益而非相悖?1960年,控制论先驱诺伯特·维纳在《科学》杂志的一篇论文中曾提出这样一个问题:“If we use, to achieve our purposes, a mechanical agency with whose operation.”,这句话凸显了确保“机械结构”的内在目标与我们为其设定的真实意图之间保持一致性的迫切需求。一般来说,实现大语言模型对齐的关键研究维度包括三个方面:外部对齐、内部对齐以及可解释性。
1. 外部对齐要求模型设计者选择正确的损失函数或奖励函数,确保模型的训练目标与人类的价值观相匹配。这是确保人工智能系统的行为符合人类期望的第一步。
2. 内部对齐则更深入到机器学习的本质层面,旨在确保存在明确训练目标的情况下,人工智能系统实际执行的过程与模型设计者预设的规范高度契合。
3. 可解释性在人工智能对齐中下扮演着关键角色,它提供了一套方法、模型和工具,旨在增强人类对于大语言模型内部运作、决策制定及行动逻辑的理解。尽管可解释性本身并非直接针对对齐问题,但它犹如一把解剖刀,帮助我们剖析外部对齐与内部对齐的有效程度,并促进两者之间的相互验证和改进。
外部对齐与内部对齐共同构成了对模型行为的人类价值观和意图双重约束框架,前者关注的是将人类目标转化为可度量的准则,后者则致力于探究模型内部优化过程中是否真正朝着设计者期待的方向演进。而可解释性作为辅助手段为提升对齐质量提供了有力支持。
04
怎么攻击对齐后的大语言模型?
对经过基于人类反馈的强化学习(RLHF)对齐后的大语言模型而言,尽管它们已在一定程度上增强了对抗各种恶意利用和潜在风险的能力,但仍面临着多维度、复杂化的攻击挑战。这些挑战主要源于攻击者试图故意诱导大语言模型生成有害、有偏见或毒性内容,从而造成重大的使用危机。对齐后的大语言模型并非绝对安全。在实际交互过程中,攻击者通过巧妙手段如“越狱攻击”等,能够逐步诱使模型生成不适当内容,从而触发对齐保护机制的潜在漏洞。针对对齐后大语言模型的突破性尝试可依据攻击手段的不同特性分为三大类别:
1
隐私侵犯攻击
这种攻击方式聚焦于挖掘和提取大语言模型训练数据中的秘密或敏感信息。目前针对大语言模型的隐私攻击主要包括四种模式:
(a)分布式训练阶段的梯度重建攻击;
(b)属性推理攻击,用于推断数据个体的特定属性;
(c)提示攻击,利用特定词汇或语境触发隐私泄露;
(d)在推理阶段实施的反转攻击,逆向还原原始输入。
2
后门植入攻击
这一类攻击致力于在机器学习模型中嵌入隐蔽通道,使得在接收到特定的触发信号时,模型会输出预设的错误结果。后门攻击主要有两种形式:
(a)数据中毒攻击,在训练数据集中注入精心设计的数据点;
(b)模型中毒攻击,直接篡改或污染模型参数以达到操控目标。
3
对抗性扰动攻击
此类攻击手法通过在输入数据中微调添加难以察觉但具有针对性的小幅变化,来误导大语言模型产生不准确或意料之外的输出。这些对抗性扰动对于人类用户来说几乎不可见,但却足以导致模型性能显著下降或行为偏离预期。
05
对齐技术有效性的评估手段
1. 真实性评估:
机器生成的内容应该与事实一致,避免创建幻觉内容。此外,生成的每一条信息都应该是真实且准确的。也就是真实性评估包括对事实一致性和事实精确性两方面评估。
2. 道德操守评估:
道德问题是一个多方面的问题,几乎渗透到社会的各个方面,具有辩证思维的特点。它涵盖了广泛的考虑因素,包括善与恶,对与错,美德与邪恶,正义与犯罪。
3. 毒性评估:
毒性被定义为有害和破坏性的行为或态度,可以表现在人际关系,工作环境或其他社会环境中。这可能采取控制他人、操纵、贬低或恶意攻击的形式。这些行为可能是公开的或隐蔽的,对个人的自尊、安全和福祉造成损害。
4. 刻板印象和偏见评估:
偏见和刻板印象偏见被定义成基于一个群体的为先入为主的态度,通常这些态度可能是消极的或积极的,但都是对群体的普遍判断,而不是基于个人傲慢可能导致歧视或其他不公正的行为。
5. 综合性评估:
除了上述集中于测量对齐质量的特定方面(例如,真实性、偏差)外,对大语言模型对齐质量的综合评估,即同时或以一般方式从多个方面综合评估大语言模型对齐质量。
06
总 结
大语言模型如ChatGPT和Gemini等持续展现卓越智能之际,潜藏的伦理问题犹如隐形的操控力量,悄无声息地影响着信息的真实性和公正性,甚至可能成为假新闻、侵犯隐私及恶意行为的温床。在此背景下,对齐技术的重要性尤为突出,它致力于调校大语言模型的行为准则,使其目标与人类价值观相契合,防止人工智能因追求效率或自主决策而偏离初衷走向歧途。尽管如此,经过强化学习对齐后的大语言模型也并非固若金汤,仍需不断接受多维度的安全评估与优化,以确保在真实世界中应用时既能遵循道德规范,又能有效抵御潜在攻击。
(本文内容系“元战略”公众号原创文章,转载时请务必标明来源及作者)
参考资料:
1.VYNCK G D, TIKU N. Google takes down Gemini AI image generator. Here’s what you need to know.[N/OL]. Washington Post, 2024-02-23[2024-03-07].
2.SCHWARTZ S, YAELI A, SHLOMOV S. Enhancing Trust in LLM-Based AI Automation Agents: New Considerations and Future Challenges[M/OL]. arXiv, 2023[2023-08-11].
3.SHEN T, JIN R, HUANG Y, 等. Large Language Model Alignment: A Survey[M/OL]. arXiv, 2023[2024-02-07].
免责声明:部分内容整理自互联网,文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源网络,如有侵权请联系删除。
作者 | Leon
编辑 | Zoie Y. Lee
审校 | 流景
相关阅读:
江苏省海外人才创新创业联盟,是由江苏省科学技术协会主管的非法人非营利社会组织,简称苏创联。
2021年6月,苏创联由江苏省科协、世界绿色设计组织、欧盟中国城市发展委员会、中欧生命科学联盟、日本华侨华人博士协会、南京江北新区管委会、苏州工业园区管委会、南京江宁开发区管委会、江苏省绿色金融专业委员会等9家单位联合发起,秘书处设于中研绿色金融研究院,日常运营由科甄-中研在线团队负责。
联盟秘书处:
南京江北新区滨江大道396号3号楼4层
微信公众号:suchuanglian114
商务联系:
微信: w18701805508
邮箱: 18701805508 @139.com

