2022 年,基于大语言模型的 AIGC领域的快速发展,使得通用人工智能不再那么遥不可及。当参数量超过某个闽值时,基于大语言模型的 AIGC 系统就能够理解人类用自然语言发布的指令,并对应生成真实、高质量的文本、图像、音视频等多模态数据。扩散模型便是其中引人注目的先行者。
扩散模型源于物理学,它最初是用于描述物质扩散的数学模型。通过将扩散模型与人工神经网络相结合,发现了它在图像生成领域的巨大潜力。从起步的 DALL-E 2和Imagen,到 Stability AI 发布的 Stable Difusion 1.5,都证明了任何一个能用语言描述心中想法的人,都可以借助扩散模型创作出精美的绘画作品。
本文作者为新书《扩散模型从原理到实战》编著者之一 @李忻玮。李忻玮是 RTE 开发者社区高级布道师,硕士毕业于美国常春藤盟校之一的哥伦比亚大学数据科学专业,现任声网人工智能算法工程师;主要研究方向是生成式人工智能、计算机视觉、自然语言处理、提示工程等。
本文创作于该书上市之际,期待与更多开发者、技术同好交流沟通。
它的强度比太阳系中最坚固的物质还要高百倍,这个世界中的所有物质在它面前都像纸片般脆弱,它可以像子弹穿透奶酪一样穿过地球,表面不受丝毫损伤。
“那……它来干什么?”中校脱口问道。
“谁知道?也许它真是一个使者,但带给人类的是另外一个信息……”丁仪说,同时把目光从水滴上移开。
“什么?”
“毁灭你,与你有何相干?”
——《三体,黑暗森林》
2019年2月,OpenAI发表GPT-2论文,验证了使用了transformer结构的网络可以通过“更多训练数据 + 更大网络参数”的条件来提升模型的能力。绝大多数人此时都还没有意识到,这正是大语言模型军备竞赛的起点,甚至或多或少内心深处还有点嘲笑openai搞出来的这个“纯靠堆算力”弄出来的模型。
本书特点
作者介绍
李忻玮
苏步升
徐浩然
余海铭
大咖联袂推荐
本书系统地介绍了扩散模型的原理和相关细节,同时书中丰富的实战案例也将引领读者快速上手扩散模型。对于任何想要学习和了解扩散模型的人来说,本书都是颇具价值的参考资料。
受非平衡热力学的启发,扩散模型以良好的数学解释性及可控的生成多样性迅速成为AIGC领域一颗耀眼的新星。本书从“一滴墨水”开始,由浅入深,从理论到实践“扩散”出了图像、文本与音频的AIGC蓝图,并为读者保留了精华,去除了“噪声”,还原出了知识体系最真实的“分布”。
人工智能扩散模型在近几年取得了令人目不暇接的惊艳成果,可以有效解决视觉内容生成的瓶颈问题。仔细阅读本书,你既可以对扩散模型背后的原理有较为深刻的理解,也可以依此动手进行实践,从而牢固掌握扩散模型,为进一步创新或深度应用打下坚实基础。本书值得推荐!
纵观人类历史,机遇永远属于抢先一步占据未来高度的人。我们每一个人都有必要去探究人工智能的奥秘,以便在即将到来的变革大潮中争得一席之地。
《扩散模型从原理到实战》以Hugging Face的扩散模型(Diffusion Model)课程为基础,通过理论和实例相结合的方式,为读者构建了一个完整的学习框架。无论你是新手还是经验丰富的从业者,这本以实战为导向的图书都能够帮助你更好地理解和应用扩散模型。
随着Stable Diffusion和Midjourney的推出,文生图形式的AI绘画火爆异常,很多游戏的角色设计、网上店铺的页面设计都用到了AI绘画工具。本书系统地梳理了AI绘画背后的一系列原理细节,且有代码实战,我非常推荐大家阅读本书!

