Spaces:

cdactvm
/

Malayalam_ASR_Demo

Sleeping

App Files Files Community

cdactvm commited on Jan 20

Commit

4965ffe

verified ·

1 Parent(s): 20ccde2

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -37

app.py CHANGED Viewed

@@ -29,8 +29,7 @@ from transformers import Wav2Vec2ProcessorWithLM
 # from waveletDenoise import wavelet_denoise
 from scipy.signal import butter, lfilter, wiener
-asr_model_telugu = pipeline("automatic-speech-recognition", model="cdactvm/telugu_w2v-bert_model")
-asr_model_kannada = pipeline("automatic-speech-recognition", model="cdactvm/w2v_bert_kannada_030125")
 def createlex(filename):
 #filename = "num_map.txt"
@@ -228,41 +227,28 @@ def apply_wiener_filter(audio):
 # Function to handle speech recognition
-def recognize_speech_telugu(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
-    #audio = high_pass_filter(audio, sr)
-    #audio = apply_wiener_filter(audio)
-    #denoised_audio = wavelet_denoise(audio)
-    #result = asr_model_telugu(denoised_audio)
-    result = asr_model_telugu(audio)
     text_value = result['text']
-    print (text_value)
-    cleaned_text = text_value.replace("<s>", "")
-    converted_text=convert2numtel(cleaned_text,tellex)
-    # cleaned_text=convert2num(cleaned_text,lex)
-    # converted_to_list = convert_to_list(cleaned_text, text_to_list())
-    # processed_doubles = process_doubles(converted_to_list)
-    # replaced_words = replace_words(processed_doubles)
-    # converted_text = text_to_int(replaced_words)
-    return cleaned_text +" -----------------> " + converted_text
-    #return cleaned_text
     # Function to handle speech recognition
-def recognize_speech_kannada(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
     audio = high_pass_filter(audio, sr)
     audio = apply_wiener_filter(audio)
     denoised_audio = wavelet_denoise(audio)
-    result = asr_model_kannada(denoised_audio)
     text_value = result['text']
     cleaned_text = text_value.replace("[UNK]", "")
     converted_text=convert2numkn(cleaned_text,kanlex)
-    #converted_text=convert2num(cleaned_text,lex)
-    # cleaned_text=convert2num(cleaned_text,lex)
-    # converted_to_list = convert_to_list(cleaned_text, text_to_list())
-    # processed_doubles = process_doubles(converted_to_list)
-    # replaced_words = replace_words(processed_doubles)
-    # converted_text = text_to_int(replaced_words)
     return cleaned_text +" -----------------> " + converted_text
 def sel_lng(lng, mic=None, file=None):
@@ -273,22 +259,18 @@ def sel_lng(lng, mic=None, file=None):
     else:
         return "You must either provide a mic recording or a file"
-    if lng == "Telugu":
-        return recognize_speech_telugu(audio)
-    elif lng == "Kannada":
-        return recognize_speech_kannada(audio)
-    # elif lng== "model_3":
-    #     return transcribe_hindi_lm(audio)
-    # elif lng== "model_4":
-    #     return Noise_cancellation_function(audio)
 demo=gr.Interface(
     fn=sel_lng,
     inputs=[
         gr.Dropdown([
-            "Telugu","Kannada"],label="Select Model"),
         gr.Audio(sources=["microphone","upload"], type="filepath"),
     ],
     outputs=[

 # from waveletDenoise import wavelet_denoise
 from scipy.signal import butter, lfilter, wiener
+asr_model_malayalam = pipeline("automatic-speech-recognition", model="cdactvm/w2v-bert-malayalam")
 def createlex(filename):
 #filename = "num_map.txt"
 # Function to handle speech recognition
+def recognize_speech_malayalam_model1(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
+    audio = high_pass_filter(audio, sr)
+    audio = apply_wiener_filter(audio)
+    denoised_audio = wavelet_denoise(audio)
+    result = asr_model_malayalam(denoised_audio)
     text_value = result['text']
+    converted_to_list = convert_to_list(cleaned_text, text_to_list())
+    replaced_words = replace_words(converted_to_list)
+    converted_text = text_to_int(replaced_words)
+    return text_value +" -----------------> " + converted_text
     # Function to handle speech recognition
+def recognize_speech_malayalam2(audio_file):
     audio, sr = librosa.load(audio_file, sr=16000)
     audio = high_pass_filter(audio, sr)
     audio = apply_wiener_filter(audio)
     denoised_audio = wavelet_denoise(audio)
+    result = asr_model_malayalam(denoised_audio)
     text_value = result['text']
     cleaned_text = text_value.replace("[UNK]", "")
     converted_text=convert2numkn(cleaned_text,kanlex)
     return cleaned_text +" -----------------> " + converted_text
 def sel_lng(lng, mic=None, file=None):
     else:
         return "You must either provide a mic recording or a file"
+    if lng == "malayalam_model1":
+        return recognize_speech_malayalam_model1(audio)
+    elif lng == "malayalam_model2":
+        return recognize_speech_malayalam_model2(audio)
 demo=gr.Interface(
     fn=sel_lng,
     inputs=[
         gr.Dropdown([
+            "malayalam_model2","malayalam_model2"],label="Select Model"),
         gr.Audio(sources=["microphone","upload"], type="filepath"),
     ],
     outputs=[