推荐:使用NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景
介绍
在过去的几年里,人工智能的世界已经戏剧性地转向了生成式建模,无论是在计算机视觉还是自然语言处理方面。Dalle-2和Midjourney引起了人们的注意,使他们认识到在生成AI领域正在完成的杰出工作。
目前生成的大多数AI生成的图像都依赖于扩散模型作为其基础。本文的目的是阐明围绕稳定扩散的一些概念,并提供对所采用方法的基本理解。
简化架构
此流程图显示了稳定扩散架构的简化版本。我们将逐一介绍它,以更好地了解内部工作原理。我们将详细说明训练过程以更好地理解,推断只有一些细微的变化。
图片来源:作者
输入
稳定扩散模型在图像字幕数据集上进行训练,其中每个图像都有一个描述图像的关联标题或提示。因此,模型有两个输入;自然语言的文本提示和大小(3,512,512)的图像,具有3个颜色通道和尺寸为512的尺寸。
附加噪声
通过将高斯噪声添加到原始图像,将图像转换为完全噪声。这是在随后的步骤中完成的,例如,将少量噪声连续50步添加到图像中,直到图像完全噪声。扩散过程旨在消除这种噪声并再现原始图