Spaces:

gdnartea
/

Chatty_Ashe

Runtime error

App Files Files Community

gdnartea commited on May 3, 2024

Commit

c4d418c

verified ·

1 Parent(s): 9dc2324

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -18

app.py CHANGED Viewed

@@ -13,9 +13,6 @@ from nemo.collections.asr.models import ASRModel
 from nemo.collections.asr.parts.utils.streaming_utils import FrameBatchMultiTaskAED
 from nemo.collections.asr.parts.utils.transcribe_utils import get_buffered_pred_feat_multitaskAED
-import tracemalloc as tm
-tm.start()
 torch.random.manual_seed(0)
 proc_model_name = "microsoft/Phi-3-mini-4k-instruct"
@@ -29,9 +26,6 @@ proc_model = AutoModelForCausalLM.from_pretrained(
 proc_model.to("cpu")
 proc_tokenizer = AutoTokenizer.from_pretrained(proc_model_name)
-print(tm.get_traced_memory())
-tm.stop()
 SAMPLE_RATE = 16000 # Hz
 MAX_AUDIO_MINUTES = 10 # wont try to transcribe if longer than this
@@ -45,16 +39,12 @@ decoding_cfg = model.cfg.decoding
 decoding_cfg.beam.beam_size = 1
 model.change_decoding_strategy(decoding_cfg)
-print(tm.get_traced_memory())
 vits_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 vits_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 set_seed(555)
-print(tm.get_traced_memory())
-tm.stop()
 def text_to_speech(text_response):
     inputs = vits_tokenizer(text=text_response, return_tensors="pt")
@@ -69,7 +59,6 @@ def text_to_speech(text_response):
 def convert_audio(audio_filepath, tmpdir, utt_id):
 	data, sr = librosa.load(audio_filepath, sr=None, mono=True)
 	duration = librosa.get_duration(y=data, sr=sr)
 	if sr != SAMPLE_RATE:
@@ -79,7 +68,6 @@ def convert_audio(audio_filepath, tmpdir, utt_id):
 	# save output audio
 	sf.write(out_filename, data, SAMPLE_RATE)
 	return out_filename, duration
 def transcribe(audio_filepath):
@@ -125,8 +113,6 @@ def generate_response(user_input):
         add_generation_prompt=True,
         return_tensors="pt",
     )
     with torch.no_grad():
         outputs = proc_model.generate(
@@ -142,19 +128,23 @@ def generate_response(user_input):
     return response
-def CanaryPhi(audio_filepath):
-    user_input = transcribe(audio_filepath)
     print(user_input)
     response = generate_response(user_input)
     print(response)
     chatty_response = text_to_speech(response)
     return chatty_response
 # Create a Gradio interface
 iface = gr.Interface(
-    fn=CanaryPhi,
-    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath"),
     #inputs=gr.Textbox(lines=5, placeholder="Enter your text here..."),
     #outputs=gr.Textbox(),
     outputs=gr.Audio("response.wav"),

 from nemo.collections.asr.parts.utils.streaming_utils import FrameBatchMultiTaskAED
 from nemo.collections.asr.parts.utils.transcribe_utils import get_buffered_pred_feat_multitaskAED
 torch.random.manual_seed(0)
 proc_model_name = "microsoft/Phi-3-mini-4k-instruct"
 proc_model.to("cpu")
 proc_tokenizer = AutoTokenizer.from_pretrained(proc_model_name)
 SAMPLE_RATE = 16000 # Hz
 MAX_AUDIO_MINUTES = 10 # wont try to transcribe if longer than this
 decoding_cfg.beam.beam_size = 1
 model.change_decoding_strategy(decoding_cfg)
 vits_model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 vits_tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 set_seed(555)
 def text_to_speech(text_response):
     inputs = vits_tokenizer(text=text_response, return_tensors="pt")
 def convert_audio(audio_filepath, tmpdir, utt_id):
 	data, sr = librosa.load(audio_filepath, sr=None, mono=True)
 	duration = librosa.get_duration(y=data, sr=sr)
 	if sr != SAMPLE_RATE:
 	# save output audio
 	sf.write(out_filename, data, SAMPLE_RATE)
 	return out_filename, duration
 def transcribe(audio_filepath):
         add_generation_prompt=True,
         return_tensors="pt",
     )
     with torch.no_grad():
         outputs = proc_model.generate(
     return response
+def CanaryPhiVits(user_voice):
+    user_input = transcribe(user_voice)
     print(user_input)
     response = generate_response(user_input)
     print(response)
     chatty_response = text_to_speech(response)
+    if chatty_response.startswith(user_input):
+        chatty_response = chatty_response.replace(user_input, '', 1)
     return chatty_response
 # Create a Gradio interface
 iface = gr.Interface(
+    fn=CanaryPhiVits,
+    inputs=gr.Audio(sources=["microphone", "upload"], type="filepath", format="wav",),
     #inputs=gr.Textbox(lines=5, placeholder="Enter your text here..."),
     #outputs=gr.Textbox(),
     outputs=gr.Audio("response.wav"),