什么是Stable Diffusion

共计 901 个字符,预计需要花费 3 分钟才能阅读完成。

2022 年发布的深度学习文本到图像生成模型 Stable Diffusion 备受瞩目。这个模型主要用于根据文本描述生成详细图像,同时也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产生图像的翻译。

什么是 Stable DiffusionStable Diffusion 是一种潜在变量模型的扩散模型,由慕尼黑大学的 CompVis 研究团体开发的各种生成性人工神经网络。该模型是由初创公司 StabilityAI、CompVis 与 Runway 合作开发,并得到 EleutherAI 和 LAION 的支持。截至 2022 年 10 月,StabilityAI 已筹集了 1.01 亿美元的资金。

与以往的专有文本到图像生成模型不同,Stable Diffusion 的代码和模型权重已经公开发布,可以在配备适度 GPU 的电脑硬件上运行。这使得普通用户也能够使用这个模型,而不需要依赖云端运算服务。

Stable Diffusion 是一种扩散模型的变体,被称为 ” 潜在扩散模型 ”(latent diffusion model; LDM)。扩散模型最早于 2015 年推出,其目的是通过去噪自编码器的连续应用来消除训练图像中的高斯噪声。Stable Diffusion 由三个部分组成:变分自编码器(VAE)、U-Net 和一个文本编码器。与传统的去噪图像数据不同,Stable Diffusion 通过训练 VAE 将图像转换为低维潜在空间进行去噪操作。在前向扩散过程中,高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤由一个包含残差神经网络(ResNet)的 U -Net 架构完成,通过从前向扩散往反方向去噪来获得潜在表征。最后,VAE 解码器将表征转换回像素空间,生成最终的输出图像。研究人员指出,LDM 的一个优势是降低了训练和生成的计算要求。

在 Stable Diffusion 中,去噪步骤可以以文本串、图像或其他数据为条件。通过交叉注意机制,数据的编码可以被调节并暴露给去噪 U -Net 的架构。为了对文本进行调节,Stable Diffusion 使用了一个预训练的固定 CLIP ViT-L/14 文本编码器,将提示词转化为嵌入空间。

总的来说,Stable Diffusion 是一种创新的深度学习文本到图像生成模型。

正文完