文生图大模型快速调优手册

工具使用 AI前沿 AI小课堂：给好奇者的极简人工智能课

Stable-Diffusion-XL大模型

Stable-Diffusion-XL是业内知名的文生图大模型，由StabilityAI研发并开源，其创意图像生成能力处于业内领先；模型对指令理解能力强，支持反向Prompt定义不希望生成的内容。

优势

日常物品绘图能力领先，整体能力达到SOTA水平。
几乎能够生成任何艺术风格的高质量图像、并实现逼真效果的最佳开源模型。
理解力强、创意十足，可以生成丰富多样的图像细节。
只需几句话就能创建复杂、细致、美观的图像，模型甚至能够区分「The Red Square」（红场，著名景点）和「red square」（红色正方形）；模型在色彩的鲜艳度和准确度方面做了很好的调整，对比度、光线和阴影都比上一代更好；可生成图像模型难以渲染的概念，例如手、文本以及空间的排列。
Prompt指令调整空间大，支持模型定制（LoRA），适合高级开发者使用。
支持更容易地根据自定义数据对模型进行微调。可生成自定义 LoRA 或检查点，减少数据处理的需要。

适用场景

Stable Diffusion XL的优势场景主要围绕创意设计领域，包括艺术插图、营销海报、趣味头像、建筑设计、影视创作等。

SD推理技巧

对于文生图模型的推理过程而言，为了控制模型输出更符合预期的高质量图像，两项关键的可控因素在于Prompt编写和参数调节：

可控因素	子项	说明
Prompt	正向提示词Prompt	描述期望模型生成的图像内容、风格、细节属性等
	反向提示词Negative Prompt	描述不期望模型生成的内容、风格、细节属性等
参数	采样方式	即模型的去噪方法，不同的采样方式对图像的稳定性和质量具有不同影响
	采样步数	设置的采样步数越多，图像会迭代更多次，针对提示词生成更精准的输出
	图片尺寸（分辨率）	控制模型输出图像的尺寸，对模型输出风格具有一定影响
	风格	调整模型输出图像的风格
	提示词相关性	控制模型遵循和还原Prompt的程度
	随机种子	控制生成图片时的随机性，随机种子取值相同时，模型生成结果可复现性高

Prompt编写技巧

基础原则

Prompt不是越长越好，应尽量将关键词控制在75个（100个）以内。
越关键的词，越往前放：对于SD模型而言，指令Prompt的位置越靠前，模型遵循要求的比重越大。
相似的同类放在一起。
只写必要的关键词。

正向提示词Prompt

组成结构

组成结构	说明	示例
前缀	用于确定图片的总体生成质量与画风等。 - 基本质量：强调图片质量的词汇，如masterpiece、bestquality等； - 画风：用于凸显图片的画风/风格，如illustration（插画）、watercolor_medium（水彩）、impasto（厚涂）、hyperrealistic（印象派）、fantasy（超现实主义）等。 - 光照效果：用于图像整体环境光效的词汇，如best lighting（最佳光线）、lensflare（炫光）、Depthoffield（景深）等。	masterpiece, extremely detailed 8k wallpaper best quality, watercolor_medium
主体	主体为图画想要凸显的主体，可以是人物、建筑、景物等，主体部分要进行丰富的描述才能获得细节丰富的图像。	a beautiful and powerful mysterious sorceress, smile, sitting on a rock, lightning magic, hat, detailed leather clothing with gemstones, dress, castle background
场景及后缀	主体存在的周围场景，如果没有场景描述，容易生成纯色背景或者是效果tag相关的背景，且主体会显得很大。部分主体会自带场景内容，例如建筑、景物等。	abandoned amusement park, backlight at dusk

效果对比示例

说明	Prompt	输出图片（示意）
无基本前缀	1 girl, flowers, tree	基础效果
有基本前缀	(masterpiece, extremely detailed 8k wallpaper best quality), 1 girl, flowers, tree	更高质量
水彩风	(masterpiece, extremely detailed 8k wallpaper, best quality), watercolor_medium, 1 girl, flowers, tree	水彩风格
黏土风	(masterpiece, extremely detailed 8k wallpaper, best quality), claymation_style, 1 girl, flowers, tree	黏土风格
电影风	(masterpiece, extremely detailed 8k wallpaper, best quality), cinematic film still , 1 girl, flowers, tree	电影质感
无主体描述	(masterpiece, best quality), 1 mechanical girl	简单主体
有主体描述	(masterpiece, best quality), 1 mechanical girl, cg, blue eyes, android, expressionless，gear, metallic skin, future technology, full body	细节丰富
无场景描述	(masterpiece, best quality), 1 mechanical girl, cg, blue eyes, android, expressionless，gear, metallic skin, future technology, full body	单一背景
有场景描述	(masterpiece, best quality), 1 mechanical girl, cg, blue eyes, android, expressionless，gear, metallic skin, future technology, full body, abandoned amusement park, backlight at dusk	场景丰富

进阶技巧

技巧1: 关键词权重调节

语法	符号及说明	备注
括号+数字	(word: 1.4)：表示word的权重提升为1.4倍 (word: 0.8)：表示word的权重降低为0.8倍	-
套括号	(((word)))：圆括号，每套一层权重x1.1倍 {{{word}}}：大括号，每套一层权重x1.05倍 [[[word]]]：方括号，每套一层权重x0.9倍	嵌套层数不宜过多

示例对比：

Prompt "masterpiece, best quality, 1 girl, (flower:2) , tree" → 花朵更突出
Prompt "masterpiece, best quality, 1 girl, (flower:0.1), tree " → 花朵弱化

技巧2: 关键词融合

融合方式	语法	说明	示例
混合	attribute1 \| attribute2 \| subject	对描述同一对象的多个关键词进行混合	white \| yellow flower → 生成黄色和白色混合的花
迁移	[attribute1 \| attribute2 \| attribute3] subject	同一对象连续生成多个不同特征，不断迁移	[white \| red \| blue] flower → 先生成白花，再生成红花，再生成蓝花
迭代	[keyword1: keyword2: factor]，factor取值区间为[0,1]	与采样进程关联，前后生成不同对象	[white flower: bush: 0.8] → 进程80%之前生成白花，80%之后生成灌木

提示词调度示例：

Prompt "Oil painting portrait of [cat: rabbit: 0.5] "，采样步数为30时，1-15步生成猫的油画，16-30步生成兔子的油画。

技巧3：划分提示语块

在语块（prompt chunk）开头的标记可能更有效，可使用关键字 "BREAK "来开始一个语块，避免关键词混合。

示例：

正确：photo of a woman in white hat BREAK blue dress → 帽子白色，裙子蓝色
错误：photo of a woman in white hat blue dress → 可能混合颜色

反向提示词Negative Prompt

组成结构

种类	说明	示例
整体提示词	强调图片质量、整体结构的词汇	ugly, lowres, bad anatomy, worst quality, low quality, normal quality
细节提示词	Stable Diffusion出图效果中经常出现错误的词汇	fused ears, one hand with more than 5 fingers, disfigured, malformed, mutated, multiple breasts, etc.

示例对比：

正向Prompt：1girl, 18 years old, real person, sweater, white background, hands a cup of cafe
无Negative Prompt：可能出现手部畸形
有Negative Prompt：bad hands, missing fingers, one hand with more than 5 fingers → 手部正常

调参技巧

采样方式

类别与特点

采样器类别	介绍
经典ODE采样器	Euler：简单快速 Heun：欧拉的改进版本，更准确但较慢 LMS：线性多步法，速度与欧拉相近，实测稳定性一般
祖先采样器	命名带字母a (ancestor)，会在每个采样步骤向图像添加噪声，结果具有随机性，不收敛如：Euler a、DPM2 a、DPM a Karras
DPM系列	DPM：自适应调整步长，速度可能较慢，对prompt利用率高 DPM++/DPM2：二阶优化版本，结果更准确但较慢 DPM++ SDE：使用祖先采样，结果不收敛 DPM++ 2M：二阶多步采样，速度与质量优秀
Karras	基于Karras噪声时间表，约8步采样后噪点更小，有助于提高图片质量

选取建议

简单图像：选用Euler、Euler a或Heun（可减少步长以节省时间）
速度与质量平衡：选用DPM++ 2M Karras、DPM++ 2M
高质量与多样性：选用DPM++ 2M SDE Karras、DPM++ SDE Karras
稳定性与可复现：避免祖先采样方式（含a或SDE的采样器）

采样步数

作用：步数越多，图像迭代越精准，但过高步数（如超过50步）对整体质量影响不大，一般设定20-30步合适。
示例：步长10→20→50，输出细节逐渐精细。

图像尺寸（分辨率）

影响：分辨率太小易模糊，太大易导致计算慢或显存不足，需兼顾设备性能与质量。
示例：768×768→768×1024→1024×1024，细节逐渐丰富。

风格

SD-XL预设风格及对应tag如下：

风格名称	正向风格tag	反向过滤tag
Enhance	breathtaking {prompt} . award-winning, professional, highly detailed	ugly, deformed, noisy, blurry, distorted, grainy
Anime	anime artwork {prompt} . anime style, key visual, vibrant, studio anime	photo, deformed, black and white, realism, disfigured, low contrast
Photographic	cinematic photo {prompt} . 35mm photograph, film, bokeh, professional	drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry
Digital art	concept art {prompt} . digital artwork, illustrative, painterly	photo, photorealistic, realism, ugly
Comic book	comic {prompt} . graphic illustration, comic art, graphic novel art	photograph, deformed, glitch, noisy, realistic, stock photo
Fantasy art	ethereal fantasy concept art of {prompt} . magnificent, celestial, ethereal	photographic, realistic, 35mm film, dslr, cropped, frame, text, deformed
Analog film	analog film photo {prompt} . faded film, desaturated, 35mm photo	painting, drawing, illustration, glitch, deformed, mutated
Neonpunk	neonpunk style {prompt} . cyberpunk, vaporwave, neon, vibes, vibrant	painting, drawing, illustration, glitch, deformed, mutated
Isometric	isometric style {prompt} . vibrant, beautiful, crisp, detailed	deformed, mutated, ugly, disfigured, blur, blurry, noise
Lowpoly	low-poly style {prompt} . low-poly game art, polygon mesh, jagged	noisy, sloppy, messy, grainy, highly detailed, ultra textured, photo
Origami	origami style {prompt} . paper art, pleated paper, folded	noisy, sloppy, messy, grainy, highly detailed, ultra textured, photo
Line art	line art drawing {prompt} . professional, sleek, modern, minimalist	anime, photorealistic, 35mm film, deformed, glitch, blurry, noisy
Craft clay	play-doh style {prompt} . sculpture, clay art, centered composition	sloppy, messy, grainy, highly detailed, ultra textured, photo
Cinematic	cinematic film still {prompt} . shallow depth of field, vignette, highly detailed	anime, cartoon, graphic, text, painting, crayon, graphite, abstract
3d-model	professional 3d model {prompt} . octane render, highly detailed	ugly, deformed, noisy, low poly, blurry, painting
pixel art	pixel-art {prompt} . low-res, blocky, pixel art style	sloppy, messy, blurry, noisy, highly detailed, ultra textured, photo
Texture	texture {prompt} top down close-up	ugly, deformed, noisy, blurry

提示词相关性（CFG Scale）

范围：1-30，默认值7。
影响：数值越大，模型遵循Prompt程度越高，但过高易导致图像变形、色彩过饱和，安全取值范围7～12。

随机种子（Seed）

作用：

控制生成图片的随机性，不同种子产生不同风格。
确保结果可重现性，相同参数（含Seed）生成图像基本一致。

应用场景：

随机性控制：调整种子数值获取不同效果。
结果复现：固定种子用于实验对比。
参数调优：尝试不同种子找到最佳效果。

如果觉得文章对你有用，请随意赞赏

Stable-Diffusion-XL 文生图大模型 Prompt编写反向Prompt 采样方式采样步数图像尺寸风格调整提示词相关性随机种子 LoRA 创意设计艺术插图营销海报趣味头像建筑设计影视创作

文生图大模型快速调优手册

https://www.fengyege.top/archives/bef03470-b1bb-4c52-9f69-2c1080ca73fc

作者

枫夜求索阁

发布于

2025-05-15

更新于

2025-05-15

许可协议

CC BY 4.0

文生图大模型快速调优手册

Stable-Diffusion-XL大模型

优势

适用场景

SD推理技巧

Prompt编写技巧

基础原则

正向提示词Prompt

组成结构

效果对比示例

进阶技巧

技巧1: 关键词权重调节

技巧2: 关键词融合

技巧3：划分提示语块

反向提示词Negative Prompt

组成结构

调参技巧

采样方式

类别与特点

选取建议

采样步数

图像尺寸（分辨率）

风格

提示词相关性（CFG Scale）

随机种子（Seed）

作者

发布于

更新于

许可协议

评论