解决diffusers加载stablediffusion模型，输入prompt总是报错token数超出clip最大长度限制

1. StableDiffusion1.5

在加载huggingface中的扩散模型时，输入prompt总是会被报错超过clip的最大长度限制。
解决方案：使用compel库

 from diffusers import AutoPipelineForText2Image
import torch
import pdb
from compel import Compel
 
device = torch.device("cuda:3")
# 大模型
model_path = "/data1/zhikun.zhao/huggingface_test/hubd/stable-diffusion-v1-5"
pipeline = AutoPipelineForText2Image.from_pretrained(
	model_path, torch_dtype=torch.float32
).to(device)
 
# 设置lora
pipeline.load_lora_weights("/data1/zhikun.zhao/huggingface_test/hubd/adapter/c_adapt1", weight_name="zhenshi.safetensors", adapter_name = "zhenshi")
 
#保证重复性和可复现性
generator = torch.Generator("cuda:3").manual_seed(31)
 
prompt = "score_7_up, realhuman, photo_\\(medium\\), (dreamy, haze:1.2), (shot on GoPro hero:1.3), instagram, ultra-realistic, high quality, high resolution, RAW photo, 8k, 4k, soft shadows, artistic, shy, bashful, innocent, interior, dramatic, dynamic composition, 18yo woman, medium shot, closeup, petite 18-year-old woman, (hazel eyes,lip piercing,long silver straight hairs,Layered Curls cut, effect ,Sad expression, Downturned mouth, drooping eyelids, furrowed brows:0.8), wearing a figure-hugging dress with a plunging neckline and lace details, paired with black opaque tights pantyhose and knee-high leather boots, The look is bold and daring, perfect for a night out, detailed interior space, "
negative_prompt = "score_1, skinny, slim, ribs, abs, 2girls, piercings, bimbo breasts, professional, bokeh, blurry, text"
 
compel = Compel(tokenizer = pipeline.tokenizer, text_encoder = pipeline.text_encoder)
conditioning = compel.build_conditioning_tensor(prompt)
negative_conditioning = compel.build_conditioning_tensor(negative_prompt) # .build_conditioning_tensor()和()通用
[conditioning, negative_conditioning] = compel.pad_conditioning_tensors_to_same_length([conditioning, negative_conditioning])
 
 
out = pipeline(prompt_embeds = conditioning,
    num_images_per_prompt = 1, generator=generator, num_inference_steps = 50, # 建议步数50就可以
    height = 1024, width = 1024,
    guidance_scale = 7   # 文字相关度，这个值越高，生成图像就跟文字提示越接近，但是值太大效果就不好了。
)
image = out.images[0]
image.save("img/test.png")复制

2. StableDiffusionXL1.0

上述解决方案在加载SDXL1.0模型的时候提示：输入prompt_embeds的同时应该输入pooled_prompt_embeds。
修改部分上述代码如下：

 out = pipeline(prompt_embeds = conditioning[0], pooled_prompt_embeds = conditioning[1],
    negative_prompt_embeds = negative_conditioning[0], negative_pooled_prompt_embeds = negative_conditioning[1],
    num_images_per_prompt = 1, generator=generator, num_inference_steps = 50, # 建议步数50就可以
    height = 1024, width = 768,
    guidance_scale = 3   # 文字相关度，这个值越高，生成图像就跟文字提示越接近，但是值太大效果就不好了。
)复制

解决diffusers加载stablediffusion模型，输入prompt总是报错token数超出clip最大长度限制

1. StableDiffusion1.5

2. StableDiffusionXL1.0

Trae AI 全新功能 SSHremote助力开发者个人产品打造，高效构建全栈应用

YOLOv11(ultralytics新作品-YOLOv8后续) | 一文带你深入理解yolov11全部内容（附网络结构图）

prompt工程起步

ChatPromptTemplate的使用

地基Prompt提示常用方式

基于变分推理与 Best‑of‑N 策略的元 Prompt 自动生成与优化框架

利用AI让数据可视化

【Agent】OpenManus-Prompt组件详细分析

解决diffusers加载stablediffusion模型，输入prompt总是报错token数超出clip最大长度限制

基于vue3.5 deepseek vant4 markdown仿DeepSeek-R1流式输出ai聊天界面

前端哥

【Linux笔记】基础IO(上)

Windows11离线安装wsl2(适用于 Linux 的 Windows 子系统)和Ubuntu

Linux 服务器运维常用命令大全

深入了解 Ubuntu 中的 build-essential：开发者的必备工具

RagFlow Docker Desktop Ollama DeepSeek-R1本地部署自己的本地AI大模型工具

Linux 学习必杀技：从菜鸟到高手的蜕变密码

Trae AI 全新功能 SSHremote助力开发者个人产品打造，高效构建全栈应用

Python Selenium全栈指南：从自动化入门到企业级实战

Spring Cloud之负载均衡之LoadBalance

【一篇搞定配置】一篇带你从配置到使用（PyCharm远程）完成服务器运行项目（配置、使用一条龙）【全网最详细版】

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS 动画效果（5种） - 附完整示例

2025-02-28 12:02:481000

3
在Vue中实现与OpenAI对话的功能

2025-02-27 11:02:161000

4
jQuery.flowchart 项目常见问题解决方案

2025-02-24 13:02:021000

5
CSS常用属性（文本属性）

2024-11-04 09:11:111000

6
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

7
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

8
vue使用datav echarts

2024-09-06 00:09:381000

9
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

10
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

	from diffusers import AutoPipelineForText2Image
	import torch
	import pdb
	from compel import Compel

	device = torch.device("cuda:3")
	# 大模型
	model_path = "/data1/zhikun.zhao/huggingface_test/hubd/stable-diffusion-v1-5"
	pipeline = AutoPipelineForText2Image.from_pretrained(
	model_path, torch_dtype=torch.float32
	).to(device)

	# 设置lora
	pipeline.load_lora_weights("/data1/zhikun.zhao/huggingface_test/hubd/adapter/c_adapt1", weight_name="zhenshi.safetensors", adapter_name = "zhenshi")

	#保证重复性和可复现性
	generator = torch.Generator("cuda:3").manual_seed(31)

	prompt = "score_7_up, realhuman, photo_\\(medium\\), (dreamy, haze:1.2), (shot on GoPro hero:1.3), instagram, ultra-realistic, high quality, high resolution, RAW photo, 8k, 4k, soft shadows, artistic, shy, bashful, innocent, interior, dramatic, dynamic composition, 18yo woman, medium shot, closeup, petite 18-year-old woman, (hazel eyes,lip piercing,long silver straight hairs,Layered Curls cut, effect ,Sad expression, Downturned mouth, drooping eyelids, furrowed brows:0.8), wearing a figure-hugging dress with a plunging neckline and lace details, paired with black opaque tights pantyhose and knee-high leather boots, The look is bold and daring, perfect for a night out, detailed interior space, "
	negative_prompt = "score_1, skinny, slim, ribs, abs, 2girls, piercings, bimbo breasts, professional, bokeh, blurry, text"

	compel = Compel(tokenizer = pipeline.tokenizer, text_encoder = pipeline.text_encoder)
	conditioning = compel.build_conditioning_tensor(prompt)
	negative_conditioning = compel.build_conditioning_tensor(negative_prompt) # .build_conditioning_tensor()和()通用
	[conditioning, negative_conditioning] = compel.pad_conditioning_tensors_to_same_length([conditioning, negative_conditioning])


	out = pipeline(prompt_embeds = conditioning,
	num_images_per_prompt = 1, generator=generator, num_inference_steps = 50, # 建议步数50就可以
	height = 1024, width = 1024,
	guidance_scale = 7 # 文字相关度，这个值越高，生成图像就跟文字提示越接近，但是值太大效果就不好了。
	)
	image = out.images[0]
	image.save("img/test.png")

	out = pipeline(prompt_embeds = conditioning[0], pooled_prompt_embeds = conditioning[1],
	negative_prompt_embeds = negative_conditioning[0], negative_pooled_prompt_embeds = negative_conditioning[1],
	num_images_per_prompt = 1, generator=generator, num_inference_steps = 50, # 建议步数50就可以
	height = 1024, width = 768,
	guidance_scale = 3 # 文字相关度，这个值越高，生成图像就跟文字提示越接近，但是值太大效果就不好了。
	)

解决diffusers加载stablediffusion模型，输入prompt总是报错token数超出clip最大长度限制

1. StableDiffusion1.5

2. StableDiffusionXL1.0

微信扫一扫：分享