Spaces:

kollis
/

36LangSpeachandText_Translator

Sleeping

kollis commited on Jan 3, 2024

Commit

606152f

1 Parent(s): bc6475a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import torchaudio
 from transformers import AutoProcessor, SeamlessM4TModel
 processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
 model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")
-model.to('cuda')
 language_dict  = {
 "Modern Standard Arabic" : "arb",
@@ -57,14 +57,14 @@ def png(source_lang,target_lang,audio,text):
     processed_inputs = processor(text, src_lang=source_lang_code, return_tensors="pt")
   else:
     sample_rate, audio_data = audio
-    audio_tokens = torch.from_numpy(audio_data).to(torch.device("cuda"))
     audio_tokens = audio_tokens.to(torch.float32)
     audio_tokens = torchaudio.functional.resample(audio_tokens, orig_freq=sample_rate, new_freq=16_000)
-    audio_tokens = audio_tokens.cpu()
     processed_inputs = processor(audios=audio_tokens, sampling_rate=16000, return_tensors="pt")
-  processed_inputs = processed_inputs.to("cuda")
   generated_audio = model.generate(**processed_inputs, tgt_lang=target_lang_code)[0].cpu().numpy().squeeze()
   output_tokens = model.generate(**processed_inputs, tgt_lang=target_lang_code, generate_speech=False)
   generated_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

 from transformers import AutoProcessor, SeamlessM4TModel
 processor = AutoProcessor.from_pretrained("facebook/hf-seamless-m4t-medium")
 model = SeamlessM4TModel.from_pretrained("facebook/hf-seamless-m4t-medium")
+# model.to('cuda')
 language_dict  = {
 "Modern Standard Arabic" : "arb",
     processed_inputs = processor(text, src_lang=source_lang_code, return_tensors="pt")
   else:
     sample_rate, audio_data = audio
+    audio_tokens = torch.from_numpy(audio_data) #.to(torch.device("cuda"))
     audio_tokens = audio_tokens.to(torch.float32)
     audio_tokens = torchaudio.functional.resample(audio_tokens, orig_freq=sample_rate, new_freq=16_000)
+    # audio_tokens = audio_tokens.cpu()
     processed_inputs = processor(audios=audio_tokens, sampling_rate=16000, return_tensors="pt")
+  # processed_inputs = processed_inputs.to("cuda")
   generated_audio = model.generate(**processed_inputs, tgt_lang=target_lang_code)[0].cpu().numpy().squeeze()
   output_tokens = model.generate(**processed_inputs, tgt_lang=target_lang_code, generate_speech=False)
   generated_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)