
AI 绘画技术深度解析:Stable Diffusion 核心原理与控制网络实战
引言:从抽卡到可控的技术演进
AI 绘画已经从早期的碰运气抽卡进化到了可以精确控制构图、姿势、光线、风格的工程化阶段。2025 年的 AI 绘画创作者不只是写 prompt 的人,更是懂模型、懂流程、懂调优的技术型艺术家。
第一章:Stable Diffusion 核心原理
1.1 扩散模型的工作机制
Stable Diffusion 的本质是一个去噪自编码器。训练阶段不断向图片添加高斯噪声直到变成白噪声,模型学习逆向去噪过程。推理阶段从一个随机噪声图像开始,通过迭代去噪逐步还原出清晰图像。
SD 之所以叫 Stable,是因为它在潜空间(Latent Space)中进行扩散。VAE 先把 512x512 的 RGB 图像压缩到 64x64 的潜空间,扩散过程在这个 8 倍压缩的空间中完成,最后再用 VAE 解码器还原到像素空间。这种设计大幅降低了计算需求。
1.2 UNet 与交叉注意力
SD 的核心网络结构是 UNet,使用交叉注意力机制把文本 prompt 的语义信息引入到图像生成过程中。CrossAttention 层的 Query 来自图像特征,Key 和 Value 来自文本编码器的输出。这种设计使得模型能够将文本描述精准映射到图像的对应区域。
第二章:Prompt 工程的艺术
2.1 Prompt 的结构化写作
一个高质量 prompt 通常包含五个要素:主体描述、环境背景、光照氛围、风格修饰、质量关键词。举例来说:主体描述写 Chinese warrior in golden armor,环境背景写 standing on a mountain peak under a crimson sunset,光照氛围写 volumetric lighting god rays,风格修饰写 epic cinematic style,质量关键词写 masterpiece best quality 8k。
2.2 权重控制语法
SD 支持对 prompt 中的不同部分赋予不同权重,精确控制生成内容的优先级。使用括号加数字的方式可以调整权重,比如 (golden armor:1.2) 提高权重 20%,(mountain peak:0.8) 降低权重 20%。
2.3 负面提示词体系
负面提示词的重要性不亚于正面提示词。一套通用的负面词模板应该覆盖:丑陋变形模糊、水印文字签名、多余肢体畸形解剖、扭曲比例重复等。
第三章:ControlNet——真正的控制力
3.1 主流 ControlNet 模型
Canny(边缘检测)用 Canny 算法提取参考图的边缘轮廓,SD 严格按此轮廓填色。OpenPose(姿态检测)提取人物的骨骼点和关节点,SD 严格按此姿态生成人物。Depth(深度估计)通过 MiDaS 或 ZoeDepth 模型估计场景的深度图。Scribble(草图)手绘线条就能作为条件输入。IP-Adapter(图像风格适配)输入风格参考图和构图参考图,风格和构图融合生成。
3.2 多 ControlNet 协同
实际工作中往往需要多个 ControlNet 协同工作。例如用 Canny 锁定构图、用 OpenPose 锁定人物姿态、用 IP-Adapter 锁定色调风格、用 Seg 确保各物体归属正确。
第四章:高阶工作流
4.1 图生图的迭代优化
设定较低的 Denoising Strength(0.3 到 0.5)进行局部修改,在 Inpaint 模式中只重绘选中区域,多次迭代逐步向目标靠近。
4.2 高清放大三件套
先用 ESRGAN 或 4x-UltraSharp 模型做第一轮放大到 2K 分辨率,再用 Tiled Diffusion 分块放大到 4K 到 8K,最后用 Tiled VAE 处理超大图片的显存溢出问题。
4.3 ComfyUI 工作流
对于需要复现的复杂流程,推荐使用 ComfyUI。节点式工作流的优势是可以精确控制每个步骤的模型和参数,全部流程保存为 JSON 文件后可以一键加载运行。
总结
AI 绘画已经从抽卡游戏进化到了参数化设计的阶段。掌握 Stable Diffusion 的工作原理、ControlNet 的控制体系、高清放大的工程流程,你就可以在各种实际场景中稳定输出高质量的图像,从电商主图到游戏原画都能覆盖。
评论区