Spaces:

GroveStreet
/

GTA_SOVITS

Running

Katock commited on Jul 29, 2023

Commit

9e75f13

1 Parent(s): 185cd8d

debug

Files changed (2) hide show

app.py CHANGED Viewed

@@ -6,8 +6,6 @@ import gradio as gr
 import gradio.processing_utils as gr_processing_utils
 import librosa
 import numpy as np
-import soundfile
-import torch
 from inference.infer_tool import Svc
@@ -18,17 +16,17 @@ logging.getLogger('matplotlib').setLevel(logging.WARNING)
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
-audio_postprocess_ori = gr.Audio.postprocess
-def audio_postprocess(self, y):
-    data = audio_postprocess_ori(self, y)
-    if data is None:
-        return None
-    return gr_processing_utils.encode_url_or_file_to_base64(data["name"])
-gr.Audio.postprocess = audio_postprocess
 def create_vc_fn(model, spk):
@@ -40,13 +38,13 @@ def create_vc_fn(model, spk):
         if duration > 20 and limitation:
             return "请上传小于20秒的音频，或点击右上角裁剪", None
         print("audio1: ", audio)
-        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
-        if len(audio.shape) > 1:
-            audio = librosa.to_mono(audio.transpose(1, 0))
-        if sampling_rate != 16000:
-            audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
-        print("audio2: ", audio)
-        input_audio = sampling_rate, audio
         # raw_path = io.BytesIO()
         # soundfile.write(raw_path, audio, sampling_rate, format="wav")

 import gradio.processing_utils as gr_processing_utils
 import librosa
 import numpy as np
 from inference.infer_tool import Svc
 limitation = os.getenv("SYSTEM") == "spaces"  # limit audio length in huggingface spaces
+# audio_postprocess_ori = gr.Audio.postprocess
+# def audio_postprocess(self, y):
+#     data = audio_postprocess_ori(self, y)
+#     if data is None:
+#         return None
+#     return gr_processing_utils.encode_url_or_file_to_base64(data["name"])
+#
+#
+# gr.Audio.postprocess = audio_postprocess
 def create_vc_fn(model, spk):
         if duration > 20 and limitation:
             return "请上传小于20秒的音频，或点击右上角裁剪", None
         print("audio1: ", audio)
+        # audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
+        # if len(audio.shape) > 1:
+        #     audio = librosa.to_mono(audio.transpose(1, 0))
+        # if sampling_rate != 16000:
+        #     audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=16000)
+        # print("audio2: ", audio)
+        # input_audio = sampling_rate, audio
         # raw_path = io.BytesIO()
         # soundfile.write(raw_path, audio, sampling_rate, format="wav")

inference/slicer.py CHANGED Viewed

@@ -134,7 +134,7 @@ def chunks2audio(input_audio, chunks):
     sr, audio = input_audio
     if len(audio.shape) == 2 and audio.shape[1] >= 2:
         audio = torch.mean(audio, dim=0).unsqueeze(0)
-    # audio = audio.cpu().numpy()[0]
     result = []
     for k, v in chunks.items():
         tag = v["split_time"].split(",")

     sr, audio = input_audio
     if len(audio.shape) == 2 and audio.shape[1] >= 2:
         audio = torch.mean(audio, dim=0).unsqueeze(0)
+    audio = audio.cpu().numpy()[0]
     result = []
     for k, v in chunks.items():
         tag = v["split_time"].split(",")