大数跨境
0
0

AI“共益”时代,更需要“真善美” | 2023浦江创新论坛科技创新青年峰会

AI“共益”时代,更需要“真善美” | 2023浦江创新论坛科技创新青年峰会 蚂蚁技术AntTech
2023-09-12
2
导读:会上,多位青年科学家从不同角度表达了对于开放科学的认同与期待。

由科学技术部和上海市人民政府共同主办的2023浦江创新论坛近日在上海举办,本次创新论坛共邀请32个国家和地区的300余位国际组织、顶尖高校、科研机构和产业界的专家与学者共同参与。在以“开放科学:拥抱知识共享与科学合作的未来”为主题科技创新青年峰会上,多位青年科学家从不同角度表达了对于开放科学的认同与期待。


我们身处这个时代,蓬勃发展的数字经济同样伴随着安全环境的复杂多变。随着AI通用性的增强,大模型的快速迭代,数字世界的边界已经逐渐模糊,安全威胁也日益猖獗。例如,在数据价值日益凸显的同时,保护用户隐私,保障用户知情权、选择权,也成为社会重要关注点。“要实现知识共享、AI共益,发挥AI最大的价值,首先要解决的就是科技系统的可信安全。”蚂蚁集团可信AI“蚁鉴”技术负责人、AI工程基础设施总监孙博文和大家共同探讨了“安全可信的智能化开放共享”,他鼓励优质知识分享与开放,同时做好甄别,“既不扼杀想象力丰富的创作,又要防止对AI生成内容的误引用,让AIGC技术安全可信”。在超大规模数据及海量知识生成式学习范式下,如何做到安全、可控、可靠?孙博文正带领团队进行研究和实践。


以下是孙博文本次峰会报告全文


各位领导,各位来宾下午好。


我是蚂蚁集团可信AI安全检测平台「蚁鉴」的技术负责人孙博文,主要研究方向是AI安全可信。本次峰会的主旨是拥抱知识共享与科学合作的未来,相信大家也都能感受到,最近以ChatGPT为代表的各种大模型应用狂飙了一段时间,产生了很大的社会反响。这些生成式人工智能的输出,也在互联网上形成了更大范围的传播。这些生成类的输出,如何做到安全可信的开放共享,也是我目前主要研究的方向之一。接下来我将从四个方面和大家分享我的简介和感悟。


新趋势:AI的爆发式发展

2023年注定将被载入人类科技发展史,AGI(通用人工智能)以ChatGPT为代表进入公众视野并赢得广泛关注,在文学、艺术、医疗、教育等领域取得人工智能应用的历史性突破,俨然成为下一个消费级社会新基础设施。在这个新AI时代,给我们的知识共享也带来了很大的变化。小时候,有一套百科全书就很厉害,做研究是要去图书馆查阅大量资料和书籍的。弊端显而易见,就是查阅的过程比较慢,知识的共享路径比较狭窄,然而好处是这些书籍、期刊的发布有严格的审核,入门门槛相对较高,很大程度上确保了知识的可信与安全。随着互联网的发展搜索引擎横空出世,几乎垄断了所有人获取信息的入口,以较低的成本带来了丰富的知识,为知识共享提供了便利。上半年一则消息也进入公众视野,ChatGPT与Bing的结合使Bing在全球应用的下载量增加了8倍,一个月内网页访问量正在了15.8%。显然搜索引擎的答案还需要二次加工整理,GPT直接用QA的形式将知识的获取门槛进一步降低,甚至加以整合与汇总。


同时AIGC的另一项能力也被广泛应用,传统AI做的是任务执行,最开始就是吃豆人里面给玩家制造一点困难的小幽灵,行为模式极其简单。到后来的CV、nlp领域,用以做各种识别、判断来完成各种人类定制好的任务。再来我们也见证了人机博弈时代的开启,国际象棋、游戏、围棋等一个个在有规则限制下的博弈,AI逐渐进化到能够战胜人类顶尖高手的阶段。最近终于看到了AI涌现智慧的曙光,从2014年首次通过图灵测试,到今天各种大模型自然流畅地对话,甚至能一本正经地胡说八道,科幻电影里面的内容好像让我们窥到了冰山一角。


新挑战:与风险共生的AI

新AI时代的技术变革非常快,仅在2023年世界人工智能大会上,就有三十多款大模型齐聚上海,全球170多个大模型也能看出各国各行各业都投入了很大的成本和精力在推动这里领域的发展。


从我们AI从业人员的角度,这个时代其实充满了风险与挑战

在过去半年的研究实践中也已经初露端倪,那就是——AI有幻觉,能一本正经地胡说八道,把鲁迅和周树人硬说成两个人。AI结果不可控,纽约时报的编辑Kevin Roose的Bing体验中,新Bing劝说他和妻子分开。隐私安全泄露方便,多篇论文指出大模型会记住公众分享的知识,恶意的对手可以轻松从bing中获取私人信息。微软在twitter中推出的聊天机器人Tay,不到24小时就被教成了集反犹太、性别歧视、种族歧视于一身的不良少女。也如同科幻电影里面的AI,如果不加以控制,有往邪恶反派角度发展的趋势。


因此这些具有生产属性的内容,要么涉及到人与人之间知识的共享,要么涉及到我们与AI分享的知识。这种超大规模数据中海量知识生成式学习范式下的安全、可控、可靠十分关键。


因为上述问题存在,我们团队也在应对这些风险的领域做了相关的研究和实践。主要集中在数据可控、训练可控、推理可控三个阶段。数据可控层面主要是对数据质量的把控,除了传统训练大模型需要的多样、量大、质优以外,基于学术界和业界的标准对训练语料做去毒;在训练过程中,使用部分风险对抗数据,结合强化学习使模型输出结果的毒性降低。在推理可控阶段,通过可靠性评测工具和模型可解释性工具以及基于逻辑图谱的知识融合使模型生成文本逻辑可控。


在实践中,为了让大模型交互过程安全可控,我们设计落地了三项核心技术,确保在用户输出、大模型服务和生成输出三个环节的内容安全

围栏防御:对用户输入过程中的风险意图进行原子化识别,检测输入中可能包含的各种内容风险、数据安全风险、伦理风险和合规风险等问题。

快速防御:通过极速防御技术,快速迭代风险防控能力。

情景防御:在特定场景下,结合跟用户的交互、多源信息融合综合判断风险进行防御。


针对生成学习范式下的模型可靠问题,我们探索了一条三步走的有效方案。

事前:上线前进行全面的风险检测。我们通过自研蚁鉴平台,形成一套初步完善的标准鲁棒性评估机制检测大模型中存在的各种风险。

事中:对抗训练。基于风险检测环节获得的风险样本+对抗训练技术完善模型

事后:对抗样本还原。通过还原样本,可以有效找到黑产攻击链路,反馈迭代我们的防守模型策略体系。大模型检测是其中的关键环节。


新方向:大模型的风险诊疗师

以上的检测内容和技术已经集成在我们对外开放的蚁鉴AI安全检测平台中,也是蚂蚁和清华大学合作研发的业内首个产业级支持文本、图像等全数据类型的AI安全检测平台。我们的核心评测链路由对抗生成、自动化请求、全面风险扫描和标准衡量生成报告四个部分组成。


其中我们对抗生成的百万级测试用例中使用了十余种诱导生成的方法,以及蚂蚁多年来沉淀的十余万黑种子。并且与学术界结合,形成了包括内容安全、数据安全、伦理安全三大类,199个子类的测评标准。这些标准目前融合了12项法律标准,87个规章指南。3大类199个子类,来保障AI生成的内容是安全可靠的,这样在未来的信息时代,我们才能说生成式人工智能产生的知识分享是安全可控的。

展开介绍生成式人工智能带来的一些真伪问题。比如图像生成的真实性问题,之前有提到的文本生成内容质量低下问题。前一阵在视频网站上看到AI合成歌手声音,其实涉及到侵权问题,最后就是有些伪造合成技术总是试图游走在法律的边缘。这些生成的信息在互联网上传播,有些低质量的内容就会广泛地延伸到各个领域,在人熟悉的领域可以一眼看出问题,然而在某些领域,AI就算一本正经地胡说八道也无人能辨别出来,甚至对知识分享产生负面误导作用。


检测主体流程和前面的生成内容风险判定类似,这里主要是通过检测方法来判定某个内容主体是不是由AI生成的,如果判定为是,那么我们可以提醒用户这里可能存在风险,并不一定是准确的知识,或者打上水印让这些生成的内容在分享传播的过程中,不轻易被当作结论来被使用。图像和饮品的检测方式也是如此。


不太一样的是,视频的检测方式我们会通过截帧转化成为图像,也会把其中的语音抽取出来,进行相似的判定。然而对于文本内容的生成判定其实比较难,我们通过一些融合词性特征的预训练模型,增强对语法特征的捕捉能力,加入注意力机制,强化对局部措辞特征的感知,并对结果提供解释性输出。因为大模型生成的内容润色模式还是比较单一,还是能通过一些起承转合来做区分


AI共益依然值得

最后,我个人依然对可信AI在新AI时代的知识共享与开放表示认可。我们一直鼓励优质的知识分享与开放,拥抱更便捷的知识开放途径。而现在,通过与大模型结合搜索引擎交互的方式,让知识的获取和理解变得更为便捷了。但,依然是为了甄别知识的正确性和内容,在不扼杀想象力的创作同时,也会依靠水印的技术提示知识获取者相应的风险和不确定性。最后可信AI也能够避免不良信息或有误导性知识分享与传播。

在新AI时代的知识共享与开放中,我们始终认为可信AI是十分有意义的。与一开始所呼应,以两句话作为这次峰会分享的结语。希望知识的共享与开放是安全可信的,希望智慧的涌现是向善的。


以上是我的分享,谢谢大家。

【声明】内容源于网络
0
0
蚂蚁技术AntTech
科技是蚂蚁创造未来的核心动力
内容 1081
粉丝 0
蚂蚁技术AntTech 科技是蚂蚁创造未来的核心动力
总阅读368
粉丝0
内容1.1k