AI绘画

AI 绘画技术深度解析：Stable Diffusion 核心原理与控制网络实战

引言：从抽卡到可控的技术演进

AI 绘画已经从早期的碰运气抽卡进化到了可以精确控制构图、姿势、光线、风格的工程化阶段。2025 年的 AI 绘画创作者不只是写 prompt 的人，更是懂模型、懂流程、懂调优的技术型艺术家。

第一章：Stable Diffusion 核心原理

1.1 扩散模型的工作机制

Stable Diffusion 的本质是一个去噪自编码器。训练阶段不断向图片添加高斯噪声直到变成白噪声，模型学习逆向去噪过程。推理阶段从一个随机噪声图像开始，通过迭代去噪逐步还原出清晰图像。

SD 之所以叫 Stable，是因为它在潜空间（Latent Space）中进行扩散。VAE 先把 512x512 的 RGB 图像压缩到 64x64 的潜空间，扩散过程在这个 8 倍压缩的空间中完成，最后再用 VAE 解码器还原到像素空间。这种设计大幅降低了计算需求。

1.2 UNet 与交叉注意力

SD 的核心网络结构是 UNet，使用交叉注意力机制把文本 prompt 的语义信息引入到图像生成过程中。CrossAttention 层的 Query 来自图像特征，Key 和 Value 来自文本编码器的输出。这种设计使得模型能够将文本描述精准映射到图像的对应区域。

第二章：Prompt 工程的艺术

2.1 Prompt 的结构化写作

一个高质量 prompt 通常包含五个要素：主体描述、环境背景、光照氛围、风格修饰、质量关键词。举例来说：主体描述写 Chinese warrior in golden armor，环境背景写 standing on a mountain peak under a crimson sunset，光照氛围写 volumetric lighting god rays，风格修饰写 epic cinematic style，质量关键词写 masterpiece best quality 8k。

2.2 权重控制语法

SD 支持对 prompt 中的不同部分赋予不同权重，精确控制生成内容的优先级。使用括号加数字的方式可以调整权重，比如 (golden armor:1.2) 提高权重 20%，(mountain peak:0.8) 降低权重 20%。

2.3 负面提示词体系

负面提示词的重要性不亚于正面提示词。一套通用的负面词模板应该覆盖：丑陋变形模糊、水印文字签名、多余肢体畸形解剖、扭曲比例重复等。

第三章：ControlNet——真正的控制力

3.1 主流 ControlNet 模型

Canny（边缘检测）用 Canny 算法提取参考图的边缘轮廓，SD 严格按此轮廓填色。OpenPose（姿态检测）提取人物的骨骼点和关节点，SD 严格按此姿态生成人物。Depth（深度估计）通过 MiDaS 或 ZoeDepth 模型估计场景的深度图。Scribble（草图）手绘线条就能作为条件输入。IP-Adapter（图像风格适配）输入风格参考图和构图参考图，风格和构图融合生成。

3.2 多 ControlNet 协同

实际工作中往往需要多个 ControlNet 协同工作。例如用 Canny 锁定构图、用 OpenPose 锁定人物姿态、用 IP-Adapter 锁定色调风格、用 Seg 确保各物体归属正确。

第四章：高阶工作流

4.1 图生图的迭代优化

设定较低的 Denoising Strength（0.3 到 0.5）进行局部修改，在 Inpaint 模式中只重绘选中区域，多次迭代逐步向目标靠近。

4.2 高清放大三件套

先用 ESRGAN 或 4x-UltraSharp 模型做第一轮放大到 2K 分辨率，再用 Tiled Diffusion 分块放大到 4K 到 8K，最后用 Tiled VAE 处理超大图片的显存溢出问题。

4.3 ComfyUI 工作流

对于需要复现的复杂流程，推荐使用 ComfyUI。节点式工作流的优势是可以精确控制每个步骤的模型和参数，全部流程保存为 JSON 文件后可以一键加载运行。

总结

AI 绘画已经从抽卡游戏进化到了参数化设计的阶段。掌握 Stable Diffusion 的工作原理、ControlNet 的控制体系、高清放大的工程流程，你就可以在各种实际场景中稳定输出高质量的图像，从电商主图到游戏原画都能覆盖。

目录CONTENT

AI 绘画技术深度解析：Stable Diffusion 核心原理与控制网络实战

AI 绘画技术深度解析：Stable Diffusion 核心原理与控制网络实战

引言：从抽卡到可控的技术演进

第一章：Stable Diffusion 核心原理

1.1 扩散模型的工作机制

1.2 UNet 与交叉注意力

第二章：Prompt 工程的艺术

2.1 Prompt 的结构化写作

2.2 权重控制语法

2.3 负面提示词体系

第三章：ControlNet——真正的控制力

3.1 主流 ControlNet 模型

3.2 多 ControlNet 协同

第四章：高阶工作流

4.1 图生图的迭代优化

4.2 高清放大三件套

4.3 ComfyUI 工作流

总结

评论区