十分钟读懂Stable Diffusion运行原理

共计 1024 个字符,预计需要花费 3 分钟才能阅读完成。

Stable Diffusion 是基于潜在扩散模型的高分辨率图像合成方法。它的运作原理源于 2022 年发表的一篇论文,作者来自慕尼黑大学机器视觉与学习小组和视频领域的公司 Runway。该模型是通过使用 LAION-Aesthetics 数据集进行训练的,这是 LAION 5B 数据集的一个高质量子集。LAION 5B 是世界上第一个大规模公开的图像文本数据集,包含了 58.5 亿个 CLIP 过滤后的图像文本对,总共达到了 80T 的大小。

十分钟读懂 Stable Diffusion 运行原理

为了训练 Stable Diffusion 模型,Stability AI 提供了 4000 个 A100 Ezra-1 AI 超级集群。Stability AI 随后发布了 Stable Diffusion 的 1.0 开源版本,而 Runway 公司发布了 1.5 版本。之后,Stability AI 又发布了 2.0 和 2.1 版本,不断改进和增强了该模型的功能和性能。

然而,由于 Stable Diffusion 是一个开源模型,想要使用该模型需要通过代码界面进行操作。对于不熟悉编程的用户来说,这种操作门槛相对较高。为了降低使用门槛,开源社区在 GitHub 上创建了一个名为 stable-diffusion-webui 的项目,专门为 Stable Diffusion 编写了 Web UI 界面。该项目始于 2022 年 8 月 22 日,截至 2023 年 4 月 1 日,有 367 名贡献者提交了 4010 次代码。在 B 站(哔哩哔哩)上,一位 UP 主使用 Gource 工具可视化展示了整个项目的提交记录,展现了 Stable Diffusion Web UI 的开发制作过程。

由于这些开源项目的出现,使得 Stable Diffusion 的使用门槛大大降低。特别值得一提的是,B 站 UP 主秋叶 aaaki 制作了 Stable Diffusion Web UI 的汉化版本。现在国内用户可以通过各种汉化整合包来使用该模型,并且这些整合包基本都是基于秋叶大神的版本,并增加了一些模型或插件。在这里,我们要特别感谢秋叶大神对 Stable Diffusion 的贡献。

Stable Diffusion 是一种基于潜在扩散模型的高分辨率图像合成方法。它通过训练模型使用高质量的 LAION-Aesthetics 数据集和大规模 AI 超级集群来实现优秀的性能。为了降低使用门槛,开源社区开发了 Stable Diffusion Web UI,并且秋叶大神还制作了汉化版本,使得用户更加方便地使用该模型。这些进展标志着设计师们面临的巨大变革时代的到来,也是 AI 技术飞速发展所带来的成果之一。

正文完