Stable Diffusion 模型训练原理

共计 918 个字符,预计需要花费 3 分钟才能阅读完成。

Stable Diffusion 中文网是基于 LAION-5B 数据集进行训练的,该数据集来源于从网络上抓取的 Common Crawl 数据。LAION-5B 是一个公开的数据集,由德国非营利组织 LAION 创建,并得到了 StabilityAI 的资助。训练过程中,模型首先在 LAION-5B 的一个大子集上进行训练,然后在“LAION-Aesthetics v2 5+”上进行最后几轮训练。这个子集包含了 6 亿张带标题的图片,人工智能预测人类对这些图片的喜欢程度至少为 5 /10。为了保证训练数据的质量,低分辨率的图像和带有水印的图像被排除在最终的子集之外。

模型的训练过程使用了亚马逊云计算服务上的 256 个 NVIDIA A100 GPU,总共花费了 15 万个 GPU 小时,成本为 60 万美元。Stable Diffusion 模型训练原理

终端用户微调训练

为了纠正模型初始训练的局限性,Stable Diffusion 中文网提供了终端用户微调训练的功能。用户可以选择对模型权重进行微调,以生成更符合特定使用情境的输出。以下是三种用户可以使用的微调方法:

  1. 嵌入(Embedding): 用户可以提供一些图像作为嵌入,模型可以在提示词中使用这些嵌入的名称生成视觉上相似的图像。嵌入是基于台拉维夫大学 2022 年的研究开发的“文本倒置”概念,通过将特定标记的矢量表示与新的伪词相关联来减少模型的偏差或模仿风格。
  2. 超网路(Hypernetwork): 超网路是一种由 NovelAI 软件开发员 Kurumuz 在 2021 年创造的技术,最初用于调节文本生成的 Transformer 模型。Stable Diffusion 通过超网路技术可以模仿各种特定艺术家的风格,即使原始模型无法识别该艺术家。超网路通过在较大的神经网络中的不同点应用一个预训练的小神经网络来实现。它可以将生成的图像导向特定方向,例如添加艺术风格,通过处理图像的重要关键区域并在二级潜在空间中修补这些区域。
  3. DreamBooth:DreamBooth 是由 Google Research 和波士顿大学的研究人员于 2022 年开发的深度学习模型。它可以微调模型以生成与指定主题相关的输出图像。

通过这些微调方法,终端用户可以根据自己的需求和偏好对 Stable Diffusion 模型进行个性化的调整。

正文完