Disco Diffusion 基础参数和设置说明

设计经验 · 互联网 · 0 评论

AI绘画人工智能 Google Disco 抖音设计神器开源工具设计工具

Disco Diffusion（下面简称DD）一整个网页都是代码，操作上就劝退很多人了，以下是素材君整理了DD基础参数和设置说明，掌握这些参数设置，您就能解锁DD高阶玩法。

AI绘画新手可以先阅读之前发布的《Disco Diffusion：人工智能AI绘画工具教程》

如果想更深入学习，可以加入我们的AI绘画交流群，与志同道合的人互相学习，一起探讨AI绘画的前沿技术。

Disco Diffusion 基础参数和设置说明

下面开始进入正题，我们在使用DD做图只需修改3.Settings和4.Diffuse!选项

Basic Settings参数说明

Disco Diffusion 基础参数和设置说明

batch_name

项目名称，这项可以不用改，之后输出的图片，会存在云盘这个名字的文件夹里

steps

指的是AI的训练次数，和画面渲染出来的精细程度相关，数字越大画面越精细

width_height

是图片的宽与高（像素尺寸），数值设置建议在64的倍数

clip_guidance_scale

控制图像与描述语的相似程度，默认5000，可选范围1500-100000，一般来说越高越好，但如果太大的话，它也会过度接近目标并扭曲图像，所以该参数的选择也需要结合自己的经验吧。

tv_scale

控制最终输出的平滑度，减少噪点，默认为0，可选参数，范围为0-1000，设置为0即可关闭。

display_rate

用于调整颜色的对比度。默认150，可选参数，范围0-1000，0即关闭。

sat_scale

过饱和调整，可选参数，设置为零即可关闭。有助于减轻过饱和度，如果你的图像过于饱和，可以增加 sat_scale来降低饱和度。

cutn_batches

切割批次，默认值4，取值范围1-8，每一次迭代，AI都会将图像切割成更小的片段，称为"切割"，并将每个切割与提示进行比较以决定如何指导下一个diffusion步骤。更多的切割通常会有更好的图像，因为DD有更多的机会在每个step中微调图像的精度。

skip_augs

是否跳过torchvision的图像增强功能

Init Image Settings参数说明

Disco Diffusion 基础参数和设置说明

init image

参考画面，如果有指定的参考图（垫图），可以在左侧的云盘文件里上传，如下图

Disco Diffusion 基础参数和设置说明

init_scale

参照规模，数值越大就越像参考图，范围在10~20000

skip_steps

参照的细致程度，官方建议在50以内

Diffuse!参数说明

Disco Diffusion 基础参数和设置说明

display_rate

是程序在运行时候需要的浏览率，最大值100，建议设置10~20，如果想在每运行20%画面会刷新预览一次，就写20

n_batches

最终渲染图片数量，默认50张，一定要记得改，不然渲染时间会很长

Disco Diffusion完整基础参数对照表

变量名称	描述	默认值
text_prompts	对你希望机器生成的内容进行描述。	N/A
image_prompts	可以设置一些参考图片，以对其内容的更多描述（可选）	N/A
clip_guidance_scale	控制图像与描述语的相似程度。	1000
tv_scale	控制最终输出的平滑度	150
range_scale	控制RGB值允许超出的范围有多大	150
sat_scale	画面饱和度控制	0
cutn	控制要从图像中提取多少个裁剪	16
cutn_batches	积累batch裁切的CLIP梯度	2
init_image	初始化的图片，机器在一张图片的基础上做渲染，可以是照片、涂鸦等，也可以保持缺失让机器自己发挥	None
init_scale	初始图像对最终结果影响的程度，建议值是1000	0
skip_steps	控制控制diffusion时间段的起始点	0
perlin_init	是否选择以随机的perlin噪声开始	FALSE
perlin_mode	perlin噪声模式—(‘gray’, ‘color’)	mixed’
skip_augs	是否跳过torchvision的图像增强功能	FALSE
randomize_class	imagenet类是否在每次迭代中随机改变	Ture
clip_denoised	CLIP是否能分辨出有噪音的或去噪的图像	FALSE
clamp_grad	实验性的：在cond_fn中是否使用自适应clip梯度	Ture
seed	选择一个随机的种子，并在运行结束时打印出来供复制。	random_seed
fuzzy_prompt	是否向描述损失添加多个随机的干扰描述	FALSE
rand_mag	控制随机的干扰描述的大小	0.1
eta	DDIM超参数	0.5
use_vertical_symmetry	是否是水平对称的	FALSE
use_horizontal_symmetry	是否是垂直对称的	FALSE
transformation_steps	控制对称性强度(以百分比的形式)	0.01
video_init_flow_warp	是否启动Flow_warp	Ture
video_init_flow_blend	0–你得到的是原始输入，1–你得到的是被warp的前一帧	0.999
video_init_check_consistency	TBD检查前向-后向flow的一致性（除非有太多的扭曲假象，否则不检查)	FALSE
timestep_respacing	修改这个值可以减少迭代次数	ddim100
diffusion_steps	迭代次数	1000
clip_models	要加载的CLIP的模型。通常情况下，越多越好，但它们都有很高的显存成本。	ViT-B/32, ViT-B/16, RN50x4
display_rate	控制预览刷新频率。默认的50表示每50步刷新一次预览效果	50
n_batches	同一词组关键词，生成多少张图。默认的50表示AI绘制完成50张图后停止绘画	50
steps	越大画面越精细，渲染也越慢，但超过500其实提升不显著	240
width_height	生成的图像大小（分辨率），必须是64的倍数，	[1270,768]