Spaces:

1inkusFace
/

StableDiffusion-3.5-Large-IP

Paused

App Files Files Community

1inkusFace commited on Jan 19

Commit

4c32653

verified ·

1 Parent(s): c2041c6

Update pipeline_stable_diffusion_3_ipa.py

Browse files

Files changed (1) hide show

pipeline_stable_diffusion_3_ipa.py +5 -11

pipeline_stable_diffusion_3_ipa.py CHANGED Viewed

@@ -1206,32 +1206,26 @@ class StableDiffusion3Pipeline(DiffusionPipeline, SD3LoraLoaderMixin, FromSingle
         # FAILS TIMESTEPS clip_image_embeds = torch.cat(image_prompt_embeds_list, dim=0).mean(dim=0)
         # 1. Stack the image embeddings
-        stacked_image_embedsg = torch.stack(image_prompt_embeds_list)
         stacked_image_embeds = torch.cat(image_prompt_embeds_list, dim=1)
         print('shape 1: ', stacked_image_embeds.shape)
-        print('shape 1a: ', stacked_image_embedsg.shape)
         # 2. Calculate the mean of the stacked embeddings
         average_image_embed = torch.mean(stacked_image_embeds, dim=0) #.unsqueeze(0)  # Add batch dimension after averaging
         print('shape 2: ', average_image_embed.shape)
-        average_image_embedf = torch.mean(stacked_image_embeds, dim=1).unsqueeze(0)  # Add batch dimension after averaging
-        print('shape 2a: ', average_image_embedf.shape)
         # 3. Create a tensor of zeros with the same shape as the averaged embedding
         zeros_tensor = torch.zeros_like(average_image_embed)
-        print('shape 3: ', zeros_tensor.shape)
-        zeros_tensor = torch.zeros_like(average_image_embed)
-        zeros_tensora = average_image_embed.repeat(1, 1, 1)
         print('shape 3.1: ', zeros_tensora.shape)
         clip_image_embedsa = average_image_embed.repeat(1, 1, 1)
         print('shape 3.5: ', clip_image_embedsa.shape)
-        clip_image_embedse = torch.cat([zeros_tensora, clip_image_embedsa], dim=0)
-        print('shape 3.8: ', clip_image_embedse.shape)
         # 4. Concatenate the zeros and the average embedding
         clip_image_embeds2 = torch.cat([zeros_tensor, average_image_embed], dim=0)
         print('shape 4: ', clip_image_embeds2.shape)
         clip_image_embeds = torch.cat([zeros_tensora, clip_image_embedsa], dim=0)
         print('shape 4a: ', clip_image_embeds.shape)
         '''
         #clip_image_embeds = clip_image_embeds.unsqueeze(0) # Add a dimension at the beginning so now you have [1, 2*seq_len_img, embed_dim_img]
         print('shape 5: ', clip_image_embeds.shape)

         # FAILS TIMESTEPS clip_image_embeds = torch.cat(image_prompt_embeds_list, dim=0).mean(dim=0)
         # 1. Stack the image embeddings
         stacked_image_embeds = torch.cat(image_prompt_embeds_list, dim=1)
         print('shape 1: ', stacked_image_embeds.shape)
         # 2. Calculate the mean of the stacked embeddings
         average_image_embed = torch.mean(stacked_image_embeds, dim=0) #.unsqueeze(0)  # Add batch dimension after averaging
         print('shape 2: ', average_image_embed.shape)
         # 3. Create a tensor of zeros with the same shape as the averaged embedding
         zeros_tensor = torch.zeros_like(average_image_embed)
+        #print('shape 3: ', zeros_tensor.shape)
+        zeros_tensora = zeros_tensor.repeat(1, 1, 1)
         print('shape 3.1: ', zeros_tensora.shape)
         clip_image_embedsa = average_image_embed.repeat(1, 1, 1)
         print('shape 3.5: ', clip_image_embedsa.shape)
         # 4. Concatenate the zeros and the average embedding
         clip_image_embeds2 = torch.cat([zeros_tensor, average_image_embed], dim=0)
+        clip_image_embeds3 = clip_image_embeds2.repeat(1, 1, 1)
         print('shape 4: ', clip_image_embeds2.shape)
         clip_image_embeds = torch.cat([zeros_tensora, clip_image_embedsa], dim=0)
         print('shape 4a: ', clip_image_embeds.shape)
+        clip_image_embeds = torch.cat([zeros_tensora, clip_image_embedsa], dim=0)
+        print('shape 4b: ', clip_image_embeds3.shape)
         '''
         #clip_image_embeds = clip_image_embeds.unsqueeze(0) # Add a dimension at the beginning so now you have [1, 2*seq_len_img, embed_dim_img]
         print('shape 5: ', clip_image_embeds.shape)