Spaces:

1inkusFace
/

StableDiffusion-3.5-Large-IP

Paused

1inkusFace commited on Jan 19

Commit

36b9065

verified ·

1 Parent(s): 7a7f101

Update pipeline_stable_diffusion_3_ipa.py

Files changed (1) hide show

pipeline_stable_diffusion_3_ipa.py CHANGED Viewed

@@ -1214,16 +1214,22 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
         zeros_tensor = torch.zeros_like(average_image_embed)
         print('shape 3: ', zeros_tensor.shape)
         # 4. Concatenate the zeros and the average embedding
-        clip_image_embeds = torch.cat([zeros_tensor, average_image_embed], dim=0)
         print('shape 4: ', clip_image_embeds.shape)
-        clip_image_embeds = clip_image_embeds.unsqueeze(0) # Add a dimension at the beginning so now you have [1, 2*seq_len_img, embed_dim_img]
         print('shape 5: ', clip_image_embeds.shape)
         bs_embed, seq_len, _ = clip_image_embeds.shape
         clip_image_embeds = clip_image_embeds.repeat(1, 1, 1)
         print('shape 6: ', clip_image_embeds.shape)
-        clip_image_embeds = clip_image_embeds.view(bs_embed, 1, -1)
-        print('shape 7: ', clip_image_embeds.shape)
         #clip_image_embeds = torch.cat([torch.stack(image_prompt_embeds_list)], dim=0).mean(dim=0)
         # 4. Prepare timesteps

         zeros_tensor = torch.zeros_like(average_image_embed)
         print('shape 3: ', zeros_tensor.shape)
         # 4. Concatenate the zeros and the average embedding
+        clip_image_embeds = torch.cat([zeros_tensor, average_image_embed], dim=1)
         print('shape 4: ', clip_image_embeds.shape)
+        #clip_image_embeds = clip_image_embeds.unsqueeze(0) # Add a dimension at the beginning so now you have [1, 2*seq_len_img, embed_dim_img]
         print('shape 5: ', clip_image_embeds.shape)
         bs_embed, seq_len, _ = clip_image_embeds.shape
         clip_image_embeds = clip_image_embeds.repeat(1, 1, 1)
         print('shape 6: ', clip_image_embeds.shape)
+        clip_image_embedsa = clip_image_embeds.view(bs_embed, 1, -1)
+        print('shape 7: ', clip_image_embedsa.shape)
+        clip_image_embedsb = clip_image_embeds.view(seq_len, -1)
+        print('shape 8: ', clip_image_embedsb.shape)
+        clip_image_embeds = clip_image_embedsb
         #clip_image_embeds = torch.cat([torch.stack(image_prompt_embeds_list)], dim=0).mean(dim=0)
         # 4. Prepare timesteps