2、 生成式AI和LLM成为NeurIPS 2022上两个热门的话题
3、 人工智能先驱 Geoff Hinton 表示,我们将看到一种全新类型的计算机
5、 通过无模型多智能体强化学习掌握 Stratego 游戏
6、 Adobe Stock 正式接受 AI 生成图片售卖
1、ChatGPT:新的聊天机器人让每个人都可以与之交谈

近期,人工智能研究公司OpenAI公开发布旗下最新的人工智能:ChatGPT,无论是写论文、编程,还是回答奇奇怪怪的问题,它都能完全胜任,并在短短不到一周的时间内就有超过了一百万用户体验。ChatGPT是在GPT 3.5大规模语言模型的基础上,引入了“人工标注数据+强化学习”来不断微调整预训练语言模型,从而让LLM模型学会理解人类的命令指令的含义,以及让LLM学会判断用户的问题。
在“人工标注数据+强化学习”框架下,ChatGPT的训练过程分为三个阶段:
第一阶段:冷启动阶段的监督策略模型,尽管GPT 3.5本身比较强大,但是它也很难理解人类不同类型问题中蕴含的意图,很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令中蕴含的意图,首先从测试用户提交的问题中随机抽取一批,依靠专业的标注人员,给出指定问题的高质量答案,然后用这些人工标注好的问题数据来微调整 GPT 3.5模型。
第二阶段:训练奖励模型,这个阶段的主要是通过人工标注训练数据,来训练奖励模型。在这个阶段里,首先由冷启动后的监督策略模型为每个问题产生K个结果,人工根据结果质量由高到低排序,以此作为训练数据,通过学习排名模式来训练奖励模型。对于学好的RM模型来说,输入及时回复 ,输出结果的质量得分,得分越高说明产生的回答质量越高。
第三阶段:采用强化学习来增强预训练模型的能力,这个阶段无需人工标注数据,而是利用上一阶段学好的RM模型,靠RM打分结果来更新预训练模型参数。首先,从用户提交的问题里随机采样一批新的提示,且由冷启动模型来初始化PPO模型的参数。然后,对于随机抽取的提示,使用PPO模型生成回答, 并用上一阶段训练好的RM模型给出答案的质量评估回报分数,这个回报分数就是RM赋予给整个回答的整体奖励。这是一个标准的强化学习过程,目的是训练LLM产生高回报的答案,也是产生符合RM标准的高质量回答。
2、生成式AI和LLM成为NeurIPS 2022上两个热门的话题
NeurIPS(神经信息处理系统会议)作为机器学习和计算神经科学每年在12月份举办的重要会议,今年更是有超过10000人参与线下会议,与往常一样,NeurIPS 主要关注机器学习方面的理论,此次NeurIPS 会议从 9,634 份投稿中接收了 2900 多篇论文,主题从神经网络和视觉转换到联邦学习和离线强化。 与往常不同的是,大型语言模型 (LLM)、扩散模型和生成式 AI 以及强化学习也成为了今年的热门话题。
3、人工智能先驱 Geoff Hinton 表示,我们将看到一种全新类型的计算机
图灵奖得主、深度学习先驱Hinton在NeurIPS闭幕会上发表《The Forward-Forward Algorithm for Training Deep Neural Networks》演讲,他指出:机器学习研究社区在意识到深度学习对计算机构建方式的影响上一直表现缓慢。他认为,人工智能的机器学习形式将引发计算机系统的变革,我们将看到一种完全不同的计算机,虽然几年内无法实现,但我们有充分的理由来研究这种完全不同的计算机。”
近期,国际咨询巨头德勤发布最新报告称:交互、信息和计算是在2023年将出现技术趋势的三大领域,报告指出未来的发展趋势:1、交互走向简单;2、信息向智能进化;3、运算过程更加丰富 。德勤咨询公司首席未来学家兼董事总经理 Mike Bechtel 指出:交互、信息和计算是技术增长的持久领域,”他认为“许多最成功的价值 10 亿美元的故事都来自这三个经久不衰的发展轨迹,元宇宙、Web3、人工智能和云只是这些轨道上的最新故事。”
5、通过无模型多智能体强化学习掌握 Stratego 游戏
近日,DeepMind又完成了一次突破,旗下AI智能体“DeepNash”在西洋陆军棋(Stratego)游戏中以84%的总胜率战胜专业级人类玩家,成功跻身历史排行榜上前三名。与军棋和围棋不同,Stratego一款不完全信息博弈游戏,游戏中,玩家无法直接观察对手棋子的身份,需要通过迂回战术,收集信息,巧妙地进行操作。DeepMind研究团队则表示DeepNash 使用的是一种新的博弈论方法,与最先进的基于搜索的学习方法截然不同,DeepNash在训练过程中不执行任何形式的搜索或显示对手建模,只依赖于在测试时使用一些游戏特定的启发式进行教学。

6、Adobe Stock 正式接受 AI 生成图片售卖
近日,Adobe宣布 Adobe Stock 图像库欢迎由 Stable Diffusion、DALL-E 等 AI 工具生成的图片在网站上售卖。根据 Adobe 更新发布的指南,在提交相关内容之前,用户必须遵守 AI 工具的使用条款,拥有相应生成内容的商业版权,同时不能使用已知在设计或输出中存在严重缺陷的工具、不能提交描绘真实地点、可识别的第三方资产(比如 LOGO)或真实人物的作品。其高级主管 Sarah Casillas 也表示:“Adobe Stock 的贡献者正在使用 AI 工具和技术来丰富他们的作品集。Adobe 将接受使用这种程序制作的艺术作品,条件是这些作品必须被注明是使用 AI 生成的。”
源于硅谷、扎根中国,上海殷泊信息科技有限公司(MoPaaS)是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能 PaaS 云平台专利技术,MoPaaS 在业界率先创新推出拥有云计算(PaaS)+AI技术架构的开放的人工智能平台,以满足工业制造、能源交通、医疗卫生、金融、科研、教育和政府等行业客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS 致力打造全方位开放的AI技术和应用生态圈。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。