talk-to-ultravox

Running on L40S

freddyaboulton HF Staff commited on Nov 15, 2024

Commit

6d7b9dd

1 Parent(s): 449d4d5

Add code

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,7 +10,8 @@ import librosa
 pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True,
                              device=torch.device('cuda'))
 account_sid = os.environ.get("TWILIO_ACCOUNT_SID")
 auth_token = os.environ.get("TWILIO_AUTH_TOKEN")
@@ -35,16 +36,14 @@ def transcribe(audio: tuple[int, np.ndarray], conversation: list[dict], gradio_c
     audio_sr = librosa.resample(audio[1].astype(np.float32) / 32768.0,
                                 orig_sr=original_sr, target_sr=target_sr)
-    inputs = pipe.preprocess({"audio": audio_sr, "turns": conversation, "sampling_rate": target_sr})
-    print("preprocess", inputs)
     output = pipe({"audio": audio_sr, "turns": conversation, "sampling_rate": target_sr},
                   max_new_tokens=512)
-    print("output", output)
-    conversation.append({"role": "user", "content": "hi"})
     conversation.append({"role": "assistant", "content": output})
-    gradio_convo.append({"role": "user", "content": "hi"})
     gradio_convo.append({"role": "assistant", "content": output})
     yield AdditionalOutputs(conversation, gradio_convo)

 pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True,
                              device=torch.device('cuda'))
+whisper = transformers.pipeline(model="openai/whisper-large-v3-turbo",
+                                device=torch.device('cuda'))
 account_sid = os.environ.get("TWILIO_ACCOUNT_SID")
 auth_token = os.environ.get("TWILIO_AUTH_TOKEN")
     audio_sr = librosa.resample(audio[1].astype(np.float32) / 32768.0,
                                 orig_sr=original_sr, target_sr=target_sr)
     output = pipe({"audio": audio_sr, "turns": conversation, "sampling_rate": target_sr},
                   max_new_tokens=512)
+    transcription = whisper({"array": audio_sr, "sampling_rate": target_sr})
+    conversation.append({"role": "user", "content": transcription})
     conversation.append({"role": "assistant", "content": output})
+    gradio_convo.append({"role": "user", "content": transcription})
     gradio_convo.append({"role": "assistant", "content": output})
     yield AdditionalOutputs(conversation, gradio_convo)