Spaces:

pupunpu
/

voice-clone-app

Sleeping

hengjie yang commited on Jan 21

Commit

3544cbd

1 Parent(s): 51df8b3

Fix tensor dimension mismatch in speaker embedding

Files changed (1) hide show

src/deploy/voice_clone.py CHANGED Viewed

@@ -71,10 +71,14 @@ class VoiceCloneSystem:
             # 提取特征
             with torch.no_grad():
                 embedding = self.speaker_encoder.encode_batch(waveform.to(self.device))
                 embeddings.append(embedding)
         # 计算平均特征
         mean_embedding = torch.mean(torch.stack(embeddings), dim=0)
         return mean_embedding
     def generate_speech(

             # 提取特征
             with torch.no_grad():
                 embedding = self.speaker_encoder.encode_batch(waveform.to(self.device))
+                # 调整维度
+                embedding = embedding.squeeze(0)  # 移除批次维度
                 embeddings.append(embedding)
         # 计算平均特征
         mean_embedding = torch.mean(torch.stack(embeddings), dim=0)
+        # 调整维度以匹配模型要求
+        mean_embedding = mean_embedding.view(1, -1)  # [1, 512]
         return mean_embedding
     def generate_speech(