IT2091024v2

Paused

Pijush2023 commited on Jul 6, 2024

Commit

8959efa

verified ·

1 Parent(s): 90468b8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1114,16 +1114,20 @@ def generate_audio_parler_tts(text):
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     try:
         model = ParlerTTSForConditionalGeneration.from_pretrained(model_id).to(device)
-    except torch.cuda.OutOfMemoryError:
-        print("CUDA out of memory. Switching to CPU.")
-        device = "cpu"
-        model = ParlerTTSForConditionalGeneration.from_pretrained(model_id).to(device)
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     description = "A female speaker with a slightly low-pitched voice delivers her words quite expressively, in a very confined sounding environment with clear audio quality. She speaks very fast."
-    input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-    prompt_input_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)
     max_input_length = model.config.n_positions - input_ids.shape[1]
     segments = [prompt_input_ids[0][i:i+max_input_length] for i in range(0, prompt_input_ids.shape[1], max_input_length)]
@@ -1131,7 +1135,12 @@ def generate_audio_parler_tts(text):
     audio_segments = []
     for segment in segments:
         segment = segment.unsqueeze(0)
-        generation = model.generate(input_ids=input_ids, prompt_input_ids=segment)
         audio_arr = generation.cpu().numpy().squeeze()
         audio_segments.append(audio_arr)
@@ -1216,3 +1225,4 @@ demo.launch(share=True)

     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     try:
         model = ParlerTTSForConditionalGeneration.from_pretrained(model_id).to(device)
+    except Exception as e:
+        print(f"Error loading Parler TTS model: {e}")
+        return None
     tokenizer = AutoTokenizer.from_pretrained(model_id)
     description = "A female speaker with a slightly low-pitched voice delivers her words quite expressively, in a very confined sounding environment with clear audio quality. She speaks very fast."
+    try:
+        input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
+        prompt_input_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)
+    except Exception as e:
+        print(f"Error tokenizing input: {e}")
+        return None
     max_input_length = model.config.n_positions - input_ids.shape[1]
     segments = [prompt_input_ids[0][i:i+max_input_length] for i in range(0, prompt_input_ids.shape[1], max_input_length)]
     audio_segments = []
     for segment in segments:
         segment = segment.unsqueeze(0)
+        try:
+            generation = model.generate(input_ids=input_ids, prompt_input_ids=segment)
+        except Exception as e:
+            print(f"Error generating audio segment: {e}")
+            return None
         audio_arr = generation.cpu().numpy().squeeze()
         audio_segments.append(audio_arr)