Spaces:

1inkusFace
/

StableDiffusion-3.5-Large-IP

Paused

App Files Files Community

1inkusFace commited on Jan 20

Commit

679d53d

verified ·

1 Parent(s): 53e5941

Update pipeline_stable_diffusion_3_ipa.py

Browse files

Files changed (1) hide show

pipeline_stable_diffusion_3_ipa.py +1 -6

pipeline_stable_diffusion_3_ipa.py CHANGED Viewed

@@ -1154,7 +1154,6 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
                 clip_image_embeds_1 = clip_image_embeds_1.to(device, dtype=dtype)
                 clip_image_embeds_1 = self.image_encoder(clip_image_embeds_1, output_hidden_states=True).hidden_states[-2]
                 print('encoder output shape: ', clip_image_embeds_1.shape)
-                clip_image_embeds_1 = self.image_proj_model(clip_image_embeds_1)
             print('projection model output shape: ', clip_image_embeds_1.shape)
@@ -1167,7 +1166,6 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
                 clip_image_embeds_2 = self.clip_image_processor(images=clip_image_2, return_tensors="pt").pixel_values
                 clip_image_embeds_2 = clip_image_embeds_2.to(device, dtype=dtype)
                 clip_image_embeds_2 = self.image_encoder(clip_image_embeds_2, output_hidden_states=True).hidden_states[-2]
-                clip_image_embeds_2 = self.image_proj_model(clip_image_embeds_2)
             clip_image_embeds_2 = clip_image_embeds_2 * scale_2
             image_prompt_embeds_list.append(clip_image_embeds_2)
         if clip_image_3 != None:
@@ -1177,7 +1175,6 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
                 clip_image_embeds_3 = self.clip_image_processor(images=clip_image_3, return_tensors="pt").pixel_values
                 clip_image_embeds_3 = clip_image_embeds_3.to(device, dtype=dtype)
                 clip_image_embeds_3 = self.image_encoder(clip_image_embeds_3, output_hidden_states=True).hidden_states[-2]
-                clip_image_embeds_3 = self.image_proj_model(clip_image_embeds_3)
             clip_image_embeds_3 = clip_image_embeds_3 * scale_3
             image_prompt_embeds_list.append(clip_image_embeds_3)
         if clip_image_4 != None:
@@ -1187,7 +1184,6 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
                 clip_image_embeds_4 = self.clip_image_processor(images=clip_image_4, return_tensors="pt").pixel_values
                 clip_image_embeds_4 = clip_image_embeds_4.to(device, dtype=dtype)
                 clip_image_embeds_4 = self.image_encoder(clip_image_embeds_4, output_hidden_states=True).hidden_states[-2]
-                clip_image_embeds_4 = self.image_proj_model(clip_image_embeds_4)
             clip_image_embeds_4 = clip_image_embeds_4 * scale_4
             image_prompt_embeds_list.append(clip_image_embeds_4)
         if clip_image_5 != None:
@@ -1197,11 +1193,10 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
                 clip_image_embeds_5 = self.clip_image_processor(images=clip_image_5, return_tensors="pt").pixel_values
                 clip_image_embeds_5 = clip_image_embeds_5.to(device, dtype=dtype)
                 clip_image_embeds_5 = self.image_encoder(clip_image_embeds_5, output_hidden_states=True).hidden_states[-2]
-                clip_image_embeds_5 = self.image_proj_model(clip_image_embeds_5)
             clip_image_embeds_5 = clip_image_embeds_5 * scale_5
             image_prompt_embeds_list.append(clip_image_embeds_5)
-        clip_image_embeds_cat_list = torch.cat(image_prompt_embeds_list).mean(dim=0).unsqueeze(0)
         print('catted embeds list with mean and unsqueeze: ',clip_image_embeds_cat_list.shape)
         seq_len, _ = clip_image_embeds_cat_list.shape
         clip_image_embeds_cat_list_repeat = clip_image_embeds_cat_list.repeat(1, 1, 1)

                 clip_image_embeds_1 = clip_image_embeds_1.to(device, dtype=dtype)
                 clip_image_embeds_1 = self.image_encoder(clip_image_embeds_1, output_hidden_states=True).hidden_states[-2]
                 print('encoder output shape: ', clip_image_embeds_1.shape)
             print('projection model output shape: ', clip_image_embeds_1.shape)
                 clip_image_embeds_2 = self.clip_image_processor(images=clip_image_2, return_tensors="pt").pixel_values
                 clip_image_embeds_2 = clip_image_embeds_2.to(device, dtype=dtype)
                 clip_image_embeds_2 = self.image_encoder(clip_image_embeds_2, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_2 = clip_image_embeds_2 * scale_2
             image_prompt_embeds_list.append(clip_image_embeds_2)
         if clip_image_3 != None:
                 clip_image_embeds_3 = self.clip_image_processor(images=clip_image_3, return_tensors="pt").pixel_values
                 clip_image_embeds_3 = clip_image_embeds_3.to(device, dtype=dtype)
                 clip_image_embeds_3 = self.image_encoder(clip_image_embeds_3, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_3 = clip_image_embeds_3 * scale_3
             image_prompt_embeds_list.append(clip_image_embeds_3)
         if clip_image_4 != None:
                 clip_image_embeds_4 = self.clip_image_processor(images=clip_image_4, return_tensors="pt").pixel_values
                 clip_image_embeds_4 = clip_image_embeds_4.to(device, dtype=dtype)
                 clip_image_embeds_4 = self.image_encoder(clip_image_embeds_4, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_4 = clip_image_embeds_4 * scale_4
             image_prompt_embeds_list.append(clip_image_embeds_4)
         if clip_image_5 != None:
                 clip_image_embeds_5 = self.clip_image_processor(images=clip_image_5, return_tensors="pt").pixel_values
                 clip_image_embeds_5 = clip_image_embeds_5.to(device, dtype=dtype)
                 clip_image_embeds_5 = self.image_encoder(clip_image_embeds_5, output_hidden_states=True).hidden_states[-2]
             clip_image_embeds_5 = clip_image_embeds_5 * scale_5
             image_prompt_embeds_list.append(clip_image_embeds_5)
+        clip_image_embeds_cat_list = torch.cat(image_prompt_embeds_list).mean(dim=0)
         print('catted embeds list with mean and unsqueeze: ',clip_image_embeds_cat_list.shape)
         seq_len, _ = clip_image_embeds_cat_list.shape
         clip_image_embeds_cat_list_repeat = clip_image_embeds_cat_list.repeat(1, 1, 1)