大数跨境
0
0

AIGC:从“神笔马良”到蛋白质设计“魔法师”

AIGC:从“神笔马良”到蛋白质设计“魔法师” 医图生科
2023-02-02
2
导读:本文将介绍AIGC技术带来AI绘画应用火爆的同时,在新药研发领域的应用。

 点击上方蓝字“医图生科”关注公众号



时下,AI领域最火的技术非AIGC(利用AI技术自动生成内容的生产方式)莫属。2022 年,人们获得了一项前所未有的绘画超级工具普通人只要用语言给出描述、或者几个关键词,就可以用 AI 程序生成一张媲美专业画师的作品。拥有了这样工具的人,即使没有学过绘画、不会操作任何设计软件,也像是拥有了神笔的马良。而一些专业的视觉设计从业人员,也开始尝试用新的工具辅助工作。这一波 AI 绘画的火热,再一次证明了 AI 图像技术的发展。以下enjoy~





AIGC 的能力惊艳了所有人,背后的技术——扩散模型,也启发了生物学家。而当生物学家将这项技术「为己所用」,就带来了技术升级:更准确地设计全新的、从来不存在的蛋白质。
本文将介绍AIGC技术带来AI绘画应用火爆的同时,在新药研发领域的应用。

AIGC火爆的背后:

Diffusion Model的出现


AIGC全称为AI Generated Content,指利用人工智能技术来生成内容。目前在应用场景上,广义上的AIGC应用场景大致可以分为To B和To C两个赛道。在B端的应用主要是通过“AI+”,来为各产业进行赋能;在C端主要是通过与人交互,进行内容生产,主要包括AI驾驶、AI助手、AI辅助文本生成等。
AI生成在2021年之前主要通过NLG生成文字,而要完成图片等视觉艺术品,则要基于生成对抗网络GAN,通过生成器和判别器不断对抗来训练模型。
通过GAN的算法训练,可以生成不错的图形,但也有很多问题难以解决,比如图形结果雷同,多样性缺乏;生成器有上升瓶颈,从而造成模式坍缩;以及训练难度高和成本大。
所以,尽管图形生已有不短的历史,包括像BigGAN,StyleGAN等的技术突破,但始终未能让产品真正商业化,只能停留在新奇好玩的阶段,直到Diffusion Model(扩散模型)出现。
通过马尔科夫链,将文字描述文本经过处理后当做噪声不断添加到原图当中,从而让神经网络从无到有的生成了图片,这是扩散模型的作用原理。通过该模型,算法训练变得更加简洁,只需要添加大量图片,生成的结果相较GAN更具多样性。
但自2015年诞生的前五年,扩散模型并没有引起业界关注。直到2020年,一篇名为Denoising Diffusion Probabilistic Models 的论文终将这一模型用在了图像的生成上。反应极快的OpenAI,在隔年1月即公布将出品Dall-E。并宣称Diffusion Model击败了GAN(论文:Diffusion Models Beat GANs on Image Synthesis),从而似乎为AI生成的工程落地指明了方向。
剑桥大学的2022年 AI 全景报告《State of AI Report 》中指出,扩散模型(Diffusion models)无疑在计算机领域掀起了一场巨大的风暴。扩散模型是深度生成AI中新的 SOTA(最佳表现模型),在一些基准测试中,其图像生成能力超越了GAN,是当前文本生成图像最火热的模型。

AIGC创造的另一种可能:设计蛋白质


AI技术带来的想象远不止理解语言、生成图像,也能给科学家提供强大的工具。DeepMind 推出的 AlphaFold2 解决了困扰生物学家五十多年的难题——蛋白质预测。人们逐渐意识到了 AI 的另一种强大力量。曾经需要科学家在实验室里花费数月甚至数年,才能够测得某个蛋白质的结构,如今输入一串氨基酸序列,就可以得到预测的结构。
科技突破往往发生在交叉领域,蛋白质预测突破背后,一个关键便是源自自然语言处理的技术 Transformer,应用在了生物领域。这样的模式正继续发生:源自AI 绘画领域的扩散模型,正在加速蛋白质设计。运用AIGC技术进行蛋白质设计可能使人类获得新的药物、疫苗、为特殊反应定制的酶……
蛋白质设计领域的领军人物大卫·贝克(David Baker)的实验室走在蛋白质设计的前沿。2022年12 月初实验室发布了最新的模型 RF diffusion,这个模型将 AI 绘画领域的扩散模型创新地融入蛋白质设计中。
另一个团队也发布了类似的成果,波士顿的蛋白质设计公司 Generate BioBiomedicines,发布了一个蛋白质设计程序 Chroma。这两项最新的研究成果,都可以对性能、结构先做一些设定,再依据这些设定来生成全新的蛋白质。
除了根据条件来重新设计,两个团队的最新模型还可以生成蛋白质片段,将片段与已经存在的结构匹配。目前,华盛顿大学 David Baker 研究团队和 AI 制药初创公司 Generate Biomedicines 的科学家团队都宣布基于扩散模型设计生成的全新蛋白质且精确度更高,两个团队的研究论文均已上传。
扩散模型已经在 AI 绘画显示了威力。最基础的直觉原理来源于物理学。在环境中,气体分子会高浓度区域扩散到低浓度区域,这个过程,也类似噪声逐步扩散、最终导致信息丢失。
将这个原理运用在图像生成,便是将「噪声逐步扩散、最终信息丢失」的过程逆向运作。先生成一张充满大量噪声的图片,再基于 AI 能力,一边猜测哪些对于最终的图像而言是「噪点」,将其去除,那么剩下的便是所需的「信息」。通过迭代,在噪声中反复提取出「信息」,最终生成被指定的图片。
为什么扩散模型用于蛋白质设计,会有更强大的结果?因为扩散模型的许多特性让其适用于蛋白质设计:
(1)由于输入的随机性和随后的去噪过程,可以产生高度多样化的分子;
(2)可以在迭代数据过程被引导到特定的设计目标,无论是通过提供条件信息还是通过外部引导势;
(3)与仅通过生成或优化蛋白质序列来设计蛋白质的方法不同,可以直接生成蛋白质结构。
计算机生物学领域的学者表示,目前的研究结果,已经证明了扩散模型的潜力。新方法在许多问题上优于现有的蛋白质设计方法。

AIGC发展:

有待成熟 药物研发领域应用值得关注


在技术层面,AI作画当下非常受关注,它是技术突破的一个代表,方向性改变是,AI从理解语言、理解文字、理解图片和视频,走向了生成内容,这称之为AIGC,即人工智能自动生成内容,是一种‘人机共创’新模式。
实际上,AIGC并非新鲜事物,其萌芽阶段可以追溯到上世纪50年代,90年代以来从实验性向实用性逐渐转变。业内人士认为,AIGC真正迎来“春天”是从2014年起,以生成对抗网络(GAN)为代表的深度学习算法在这一年被提出。GAN可以帮助神经网络用更少的数据进行学习,生成更多的合成图像,然后用来识别和创建更好的神经网络。
随着GAN的迭代更新,2020年语言模型GPT-3算法的出现,以及NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,人工智能不仅能够模仿人的思维方式,而且能够理解并运用人类的语言。
在此基础上,AI进入一个新的阶段,AIGC的应用也更加地广泛。据不完全统计,过去两年间该领域共计推出了约300多个应用。
根据Gartner预测,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。潜在的市场价值,自然吸引了众多玩家入场。诸如百度、腾讯、阿里巴巴、字节跳动、网易等国内大厂纷纷跟进,在AIGC领域动作频频。
虽然AIGC相关概念已在资本端走红,但当前,AIGC赛道尚处于孕育探索阶段,存在关键核心技术不成熟、内容堆砌且质量层次不齐、成熟的商业应用场景较少、相关法律法规不健全及存在技术伦理挑战等突出问题,短期内还难以实现大规模商业化应用。
笔者认为,虽然AIGC的前景广阔,商业化尚需时日,但其在新药研发领域的探索值得关注。科学家已经将AIGC的扩散程序引入蛋白质设计和生成过程中。这些研究表明扩散模型是应用于蛋白质生成极具前途的技术手段,虽然这些研究还处于概念验证阶段。
近期,David Baker 研究团队和 AI 制药初创公司 Generate Biomedicines 科学家团队开发出 RoseTTAFold Diffusion 和Chroma模型,两个团队都利用各自的模型展示了全新蛋白质的设计和生成。这些模型设计出了具有多种对称性的蛋白质,包括圆形、三角形、六边形的蛋白质。期待更多的新药研发团队能将AI 绘画领域的扩散模型创新地融入蛋白质设计中。
大自然花了上亿年形成蛋白质进化规律,人类虽然不能完全翻译这些规律,但期待有一天可以通过发明强大AI工具,并对它发出设计蛋白质的指令。
总之,如果提出对图画的描述,让 AI 帮人类作画已经超出想象;那么人类提出一个对蛋白质的要求,让 AI 设计出一个分子,更像是一种超级魔法能力,期待AIGC能够让人类的这一梦想成真!

 关于医图生科 


医图生科(苏州)生命科学技术有限公司对标全球最大的药物特许权开发公司“ROYALTY PHARMA”及传奇生物,专注从事人工智能新药研发,努力打造成为AI版的“ROYALTY PHARMA”。公司针对前沿疾病,以领先世界水平的AI药物研发平台,从临床发现、靶点验证、动物模型构建、大小分子合成及重组表达、IND试验等方面对药物研发进行赋能,面向全球制药企业提供国际领先的AI赋能的全球创新药研发产品与服务。

未来三年,医图生科将以“三大AceMap智能药物研发平台为核心,以“AI新药研发+License Out”为核心商业模式,积极开发整合大量前沿技术,构建AI新药研发平台的产业生态,打造全球领先的AI创新药研发公司并在科创板上市。


【声明】内容源于网络
0
0
医图生科
医图生科(苏州)生命科学技术有限公司(简称医图生科)专业从事AI新药研发,致力于使用世界领先的人工智能技术推动新药研发,造福人类健康。
内容 37
粉丝 0
医图生科 医图生科(苏州)生命科学技术有限公司(简称医图生科)专业从事AI新药研发,致力于使用世界领先的人工智能技术推动新药研发,造福人类健康。
总阅读9
粉丝0
内容37