Spaces:

pupunpu
/

voice-clone-app

Sleeping

App Files Files Community

hengjie yang commited on Jan 21

Commit

4ecc033

1 Parent(s): 3544cbd

Improve tensor dimension handling and add debug info

Browse files

Files changed (1) hide show

src/deploy/voice_clone.py +24 -11

src/deploy/voice_clone.py CHANGED Viewed

@@ -71,14 +71,19 @@ class VoiceCloneSystem:
             # 提取特征
             with torch.no_grad():
                 embedding = self.speaker_encoder.encode_batch(waveform.to(self.device))
-                # 调整维度
-                embedding = embedding.squeeze(0)  # 移除批次维度
                 embeddings.append(embedding)
         # 计算平均特征
         mean_embedding = torch.mean(torch.stack(embeddings), dim=0)
-        # 调整维度以匹配模型要求
-        mean_embedding = mean_embedding.view(1, -1)  # [1, 512]
         return mean_embedding
     def generate_speech(
@@ -99,6 +104,10 @@ class VoiceCloneSystem:
         # 处理输入文本
         inputs = self.processor(text=text, return_tensors="pt")
         # 生成语音
         speech = self.tts_model.generate_speech(
             inputs["input_ids"].to(self.device),
@@ -123,13 +132,17 @@ class VoiceCloneSystem:
         Returns:
             生成的语音波形
         """
-        # 1. 提取说话人特征
-        speaker_embedding = self.extract_speaker_embedding(reference_audio_paths)
-        # 2. 生成语音
-        speech = self.generate_speech(text, speaker_embedding)
-        return speech
     def save_audio(
         self,

             # 提取特征
             with torch.no_grad():
                 embedding = self.speaker_encoder.encode_batch(waveform.to(self.device))
+                # 调整维度：从 [1, 1, 1, 512] 转换为 [1, 512]
+                embedding = embedding.squeeze()  # 移除所有维度为1的维度
+                if embedding.dim() == 1:
+                    embedding = embedding.unsqueeze(0)  # 确保是 [1, 512]
                 embeddings.append(embedding)
         # 计算平均特征
         mean_embedding = torch.mean(torch.stack(embeddings), dim=0)
+        if mean_embedding.dim() == 1:
+            mean_embedding = mean_embedding.unsqueeze(0)  # 确保是 [1, 512]
+        # 打印维度信息以便调试
+        print(f"Final embedding shape: {mean_embedding.shape}")
         return mean_embedding
     def generate_speech(
         # 处理输入文本
         inputs = self.processor(text=text, return_tensors="pt")
+        # 确保说话人特征维度正确
+        if speaker_embedding.dim() != 2 or speaker_embedding.size(1) != 512:
+            raise ValueError(f"Speaker embedding should have shape [1, 512], but got {speaker_embedding.shape}")
         # 生成语音
         speech = self.tts_model.generate_speech(
             inputs["input_ids"].to(self.device),
         Returns:
             生成的语音波形
         """
+        try:
+            # 1. 提取说话人特征
+            speaker_embedding = self.extract_speaker_embedding(reference_audio_paths)
+            # 2. 生成语音
+            speech = self.generate_speech(text, speaker_embedding)
+            return speech
+        except Exception as e:
+            print(f"Error in clone_voice: {str(e)}")
+            raise
     def save_audio(
         self,