Spaces:

1inkusFace
/

StableDiffusion-3.5-Large-IP

Paused

1inkusFace commited on Jan 19

Commit

5d6dc06

verified ·

1 Parent(s): 154abbe

Update pipeline_stable_diffusion_3_ipa.py

Files changed (1) hide show

pipeline_stable_diffusion_3_ipa.py CHANGED Viewed

@@ -1204,9 +1204,18 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
         # FAILS TIMESTEPS clip_image_embeds = torch.cat(image_prompt_embeds_list, dim=0).mean(dim=0)
-        #clip_image_embeds = torch.mean(torch.stack(image_prompt_embeds_list), dim=0)  # working
-        clip_image_embeds = torch.cat([torch.zeros_like(image_prompt_embeds_list),image_prompt_embeds_list]).mean(dim=0).unsqueeze(0)
         bs_embed, seq_len, _ = clip_image_embeds.shape
         clip_image_embeds = clip_image_embeds.repeat(1, 1, 1)
         clip_image_embeds = clip_image_embeds.view(2, -1)

         # FAILS TIMESTEPS clip_image_embeds = torch.cat(image_prompt_embeds_list, dim=0).mean(dim=0)
+        # 1. Stack the image embeddings
+        stacked_image_embeds = torch.stack(image_prompt_embeds_list)
+        # 2. Calculate the mean of the stacked embeddings
+        average_image_embed = torch.mean(stacked_image_embeds, dim=0).unsqueeze(0)  # Add batch dimension after averaging
+        # 3. Create a tensor of zeros with the same shape as the averaged embedding
+        zeros_tensor = torch.zeros_like(average_image_embed)
+        # 4. Concatenate the zeros and the average embedding
+        clip_image_embeds = torch.cat([zeros_tensor, average_image_embed], dim=0)
         bs_embed, seq_len, _ = clip_image_embeds.shape
         clip_image_embeds = clip_image_embeds.repeat(1, 1, 1)
         clip_image_embeds = clip_image_embeds.view(2, -1)