Spaces:

roll-ai
/

EPiC

Sleeping

App Files Files Community

Muhammad Taqi Raza commited on 12 days ago

Commit

0d2f841

1 Parent(s): 509e4d7

print shapes

Browse files

Files changed (3) hide show

cogvideo_controlnet_pcd.py +19 -1
controlnet_pipeline.py +1 -0
inference/cli_demo_camera_i2v_pcd.py +2 -0

cogvideo_controlnet_pcd.py CHANGED Viewed

@@ -85,6 +85,20 @@ class CogVideoXControlnetPCD(ModelMixin, ConfigMixin, PeftAdapterMixin):
             patch_embed_in_channels = vae_channels*2
         # 1. Patch embedding
         self.patch_embed = CogVideoXPatchEmbed(
             patch_size=patch_size,
             in_channels=patch_embed_in_channels,
@@ -99,7 +113,6 @@ class CogVideoXControlnetPCD(ModelMixin, ConfigMixin, PeftAdapterMixin):
             use_positional_embeddings=not use_rotary_positional_embeddings,
             use_learned_positional_embeddings=use_learned_positional_embeddings,
         )
         self.embedding_dropout = nn.Dropout(dropout)
         # 2. Time embeddings
@@ -225,6 +238,11 @@ class CogVideoXControlnetPCD(ModelMixin, ConfigMixin, PeftAdapterMixin):
                     image_rotary_emb=image_rotary_emb,
                 )
             if self.out_projectors is not None:
                 if controlnet_output_mask is not None:
                     controlnet_hidden_states += (self.out_projectors[i](hidden_states) * controlnet_output_mask,)

             patch_embed_in_channels = vae_channels*2
         # 1. Patch embedding
+        # self.patch_embed = CogVideoXPatchEmbed(
+        #     patch_size=patch_size,
+        #     in_channels=patch_embed_in_channels,
+        #     embed_dim=inner_dim,
+        #     bias=True,
+        #     sample_width=sample_width,
+        #     sample_height=sample_height,
+        #     sample_frames=sample_frames,
+        #     temporal_compression_ratio=temporal_compression_ratio,
+        #     spatial_interpolation_scale=spatial_interpolation_scale,
+        #     temporal_interpolation_scale=temporal_interpolation_scale,
+        #     use_positional_embeddings=not use_rotary_positional_embeddings,
+        #     use_learned_positional_embeddings=use_learned_positional_embeddings,
+        # )
         self.patch_embed = CogVideoXPatchEmbed(
             patch_size=patch_size,
             in_channels=patch_embed_in_channels,
             use_positional_embeddings=not use_rotary_positional_embeddings,
             use_learned_positional_embeddings=use_learned_positional_embeddings,
         )
         self.embedding_dropout = nn.Dropout(dropout)
         # 2. Time embeddings
                     image_rotary_emb=image_rotary_emb,
                 )
+            print("hidden_states shape:", hidden_states.shape)
+            print("out_projectors[i](hidden_states) shape:", self.out_projectors[i](hidden_states).shape)
+            print("controlnet_output_mask shape:", controlnet_output_mask.shape)
             if self.out_projectors is not None:
                 if controlnet_output_mask is not None:
                     controlnet_hidden_states += (self.out_projectors[i](hidden_states) * controlnet_output_mask,)

controlnet_pipeline.py CHANGED Viewed

@@ -733,6 +733,7 @@ class ControlnetCogVideoXImageToVideoPCDPipeline(DiffusionPipeline, CogVideoXLor
                         controlnet_output_mask = controlnet_output_mask,
                         timestep=timestep,
                         return_dict=False,
                     )[0]
                     if isinstance(controlnet_states, (tuple, list)):
                         controlnet_states = [x.to(dtype=self.transformer.dtype) for x in controlnet_states]

                         controlnet_output_mask = controlnet_output_mask,
                         timestep=timestep,
                         return_dict=False,
                     )[0]
                     if isinstance(controlnet_states, (tuple, list)):
                         controlnet_states = [x.to(dtype=self.transformer.dtype) for x in controlnet_states]

inference/cli_demo_camera_i2v_pcd.py CHANGED Viewed

@@ -218,6 +218,8 @@ def generate_video(
         in_channels=controlnet_input_channels,
         use_zero_conv=use_zero_conv,
         sample_frames = num_frames,  # 49 frames
         **controlnet_kwargs,
     )
     if controlnet_model_path:

         in_channels=controlnet_input_channels,
         use_zero_conv=use_zero_conv,
         sample_frames = num_frames,  # 49 frames
+        sample_height= height,  # 480
+        sample_width= width,  # 720
         **controlnet_kwargs,
     )
     if controlnet_model_path: