Spaces:

Coco-18
/

Kapamtalk

Running

Coco-18 commited on Mar 14

Commit

168acfa

verified ·

1 Parent(s): 6aa3d97

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -38,7 +38,6 @@ for lang, path in MODELS.items():
         loaded_processors[lang] = None
 # Constants
-SAMPLE_RATE = 16000
 OUTPUT_DIR = "/tmp/"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
@@ -71,19 +70,16 @@ def generate_tts():
         model = loaded_models[language]
         inputs = processor(text_input, return_tensors="pt")
-        # Generate speech
         with torch.no_grad():
-            output = model.generate(**inputs)
-            # For VITS models, the output is typically a waveform
-            # Check if output is a tuple/list or a single tensor
-            if isinstance(output, tuple) or isinstance(output, list):
-                waveform = output[0].cpu().numpy().squeeze()
-            else:
-                waveform = output.cpu().numpy().squeeze()
         # Save to file
         output_filename = os.path.join(OUTPUT_DIR, f"{language}_output.wav")
-        sf.write(output_filename, waveform, SAMPLE_RATE)
         print(f"✅ Speech generated! File saved: {output_filename}")
         return jsonify({

         loaded_processors[lang] = None
 # Constants
 OUTPUT_DIR = "/tmp/"
 os.makedirs(OUTPUT_DIR, exist_ok=True)
         model = loaded_models[language]
         inputs = processor(text_input, return_tensors="pt")
+        # Generate speech - using model(**inputs) instead of model.generate()
         with torch.no_grad():
+            output = model(**inputs).waveform
+            waveform = output.squeeze().cpu().numpy()
         # Save to file
         output_filename = os.path.join(OUTPUT_DIR, f"{language}_output.wav")
+        # Use the model's sampling rate
+        sampling_rate = model.config.sampling_rate
+        sf.write(output_filename, waveform, sampling_rate)
         print(f"✅ Speech generated! File saved: {output_filename}")
         return jsonify({