Spaces:

ahk-d
/

RAVE-n

Running

ahk-d commited on 21 days ago

Commit

57c442c

verified ·

1 Parent(s): af310d3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,22 +37,28 @@ def apply_rave(audio, model_name):
     """Apply selected RAVE model to uploaded audio."""
     model = load_rave_model(model_name)
-    # Convert numpy audio to torch tensor
-    audio_tensor = torch.tensor(audio[0]).unsqueeze(0)  # [1, samples]
-    sr = audio[1]
-    # ✅ Resample if needed (most RAVE models expect 48kHz)
-    if sr != 48000:
-        audio_tensor = torchaudio.functional.resample(audio_tensor, sr, 48000)
         sr = 48000
     with torch.no_grad():
-        # ✅ TorchScript models have encode & decode methods
         z = model.encode(audio_tensor)
         processed_audio = model.decode(z)
     return (processed_audio.squeeze().cpu().numpy(), sr)
 # 🎛 Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("## 🎛 RAVE Style Transfer on Stems")

     """Apply selected RAVE model to uploaded audio."""
     model = load_rave_model(model_name)
+    # ✅ Unpack properly
+    waveform, sr = audio  # waveform: np.array [samples, channels]
+    # ✅ Convert stereo -> mono if needed
+    if waveform.ndim > 1:
+        waveform = np.mean(waveform, axis=1)
+    # ✅ Convert numpy to torch tensor
+    audio_tensor = torch.tensor(waveform).unsqueeze(0)  # shape: [1, samples]
+    # ✅ Resample if needed
+    if int(sr) != 48000:
+        audio_tensor = torchaudio.functional.resample(audio_tensor, int(sr), 48000)
         sr = 48000
     with torch.no_grad():
         z = model.encode(audio_tensor)
         processed_audio = model.decode(z)
     return (processed_audio.squeeze().cpu().numpy(), sr)
 # 🎛 Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("## 🎛 RAVE Style Transfer on Stems")