Spaces:

ymgong3616
/

care_chat

Sleeping

App Files Files Community

ymgong3616 commited on Mar 6

Commit

94deda3

1 Parent(s): 02e39fa

update space

Browse files

Files changed (1) hide show

app.py +31 -23

app.py CHANGED Viewed

@@ -35,35 +35,32 @@ SAMPLE_RATE = feature_extractor.sampling_rate
 SEED = 42
-def numpy_to_mp3(audio_array, sampling_rate):
-    # Normalize audio_array if it's floating-point
-    if np.issubdtype(audio_array.dtype, np.floating):
-        max_val = np.max(np.abs(audio_array))
-        audio_array = (audio_array / max_val) * 32767 # Normalize to 16-bit range
-        audio_array = audio_array.astype(np.int16)
-    # Create an audio segment from the numpy array
     audio_segment = AudioSegment(
-        audio_array.tobytes(),
         frame_rate=sampling_rate,
-        sample_width=audio_array.dtype.itemsize,
         channels=1
     )
-    # Export the audio segment to MP3 bytes - use a high bitrate to maximise quality
     mp3_io = io.BytesIO()
     audio_segment.export(mp3_io, format="mp3", bitrate="320k")
-    # Get the MP3 bytes
     mp3_bytes = mp3_io.getvalue()
     mp3_io.close()
     return mp3_bytes
-sampling_rate = model.audio_encoder.config.sampling_rate
-frame_rate = model.audio_encoder.config.frame_rate
 def generate_response(audio):
     gr.Info("Transcribing Audio", duration=5)
     question = client.automatic_speech_recognition(audio).text
@@ -79,9 +76,7 @@ def generate_response(audio):
 @spaces.GPU
 def read_response(answer):
-    play_steps_in_s = 2.0
     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
@@ -94,18 +89,31 @@ def read_response(answer):
         input_ids=description_tokens.input_ids,
         prompt_input_ids=prompt.input_ids,
         streamer=streamer,
-        do_sample=True,
-        temperature=1.0,
         min_new_tokens=10,
     )
     set_seed(SEED)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     start = time.time()
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds after {time.time() - start} seconds")
-        yield answer, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block:

 SEED = 42
+def accumulate_and_convert_to_mp3(audio_chunks, sampling_rate):
+    # Concatenate all chunks
+    accumulated_audio = np.concatenate(audio_chunks, axis=0)
+    # Normalize the entire audio at once
+    if np.issubdtype(accumulated_audio.dtype, np.floating):
+        max_val = np.max(np.abs(accumulated_audio))
+        accumulated_audio = (accumulated_audio / max_val) * 32767
+        accumulated_audio = accumulated_audio.astype(np.int16)
+    # Create an audio segment from the complete numpy array
     audio_segment = AudioSegment(
+        accumulated_audio.tobytes(),
         frame_rate=sampling_rate,
+        sample_width=accumulated_audio.dtype.itemsize,
         channels=1
     )
+    # Export to MP3 with high quality
     mp3_io = io.BytesIO()
     audio_segment.export(mp3_io, format="mp3", bitrate="320k")
     mp3_bytes = mp3_io.getvalue()
     mp3_io.close()
     return mp3_bytes
 def generate_response(audio):
     gr.Info("Transcribing Audio", duration=5)
     question = client.automatic_speech_recognition(audio).text
 @spaces.GPU
 def read_response(answer):
+    play_steps_in_s = 10.0
     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
         input_ids=description_tokens.input_ids,
         prompt_input_ids=prompt.input_ids,
         streamer=streamer,
+        do_sample=False,
+        temperature=0.3,
         min_new_tokens=10,
     )
     set_seed(SEED)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
+    # Accumulate audio chunks
+    audio_chunks = []
     start = time.time()
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds after {time.time() - start} seconds")
+        audio_chunks.append(new_audio)
+        # Yield None for the audio to maintain the streaming interface
+        yield answer, None
+    # Convert the accumulated audio to MP3 at the end
+    if audio_chunks:
+        final_mp3 = accumulate_and_convert_to_mp3(audio_chunks, sampling_rate)
+        yield answer, final_mp3
+sampling_rate = model.audio_encoder.config.sampling_rate
+frame_rate = model.audio_encoder.config.frame_rate
 with gr.Blocks() as block: