bedtime-story-batches

Sleeping

App Files Files Community

freddyaboulton HF Staff commited on Aug 1, 2024

Commit

ee3a553

1 Parent(s): 5b58cc8

batch

Browse files

Files changed (1) hide show

app.py +46 -26

app.py CHANGED Viewed

@@ -218,32 +218,52 @@ def generate_base(subject, setting, ):
     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
-    inputs = tokenizer(description, return_tensors="pt").to(device)
-    for i, sentence in enumerate(model_input):
-        streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
-        prompt = tokenizer(sentence, return_tensors="pt").to(device)
-        generation_kwargs = dict(
-            input_ids=inputs.input_ids,
-            prompt_input_ids=prompt.input_ids,
-            streamer=streamer,
-            do_sample=True,
-            temperature=1.0,
-            min_new_tokens=10,
-        )
-        set_seed(SEED)
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.start()
-        for new_audio in streamer:
-            if i == 0:
-                gr.Info("Reading story", duration=3)
-            print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
-            yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block:

     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
+    description = [description for _ in range(len(model_input))]
+    description_tokens = tokenizer(description, return_tensors="pt").input_ids.to(device)
+    # for i in range(0, len(model_input), BATCH_SIZE):
+    #     inputs = model_input[i:min(i + BATCH_SIZE, len(model_input))]
+    #     if len(inputs) != 0:
+    # input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
+    story = tokenizer(model_input, return_tensors="pt", padding=True).input_ids.to(device)
+    speech_output = model.generate(input_ids=description_tokens, prompt_input_ids=story)
+    speech_output = [output.cpu().numpy() for output in speech_output]
+    for i, new_audio in enumerate(speech_output):
+        if i == 0:
+            gr.Info("Reading story", duration=3)
+        print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
+        yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
+    # print(f"{i}-th part generated")
+    # pieces += [*speech_output, silence.copy()]
+    # for i, sentence in enumerate(model_input):
+    #     streamer = ParlerTTSStreamer(model, device=device, play_steps=play_steps)
+    #     prompt = tokenizer(sentence, return_tensors="pt").to(device)
+    #     generation_kwargs = dict(
+    #         input_ids=inputs.input_ids,
+    #         prompt_input_ids=prompt.input_ids,
+    #         streamer=streamer,
+    #         do_sample=True,
+    #         temperature=1.0,
+    #         min_new_tokens=10,
+    #     )
+    #     set_seed(SEED)
+    #     thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    #     thread.start()
+        # for new_audio in streamer:
+        #     if i == 0:
+        #         gr.Info("Reading story", duration=3)
+        #     print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds")
+        #     yield story, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block: