Spaces:

cdactvm
/

Tamil_ASR_Demo

Running

App Files Files Community

cdactvm commited on Dec 11, 2024

Commit

fe9f5d4

verified ·

1 Parent(s): 848fa94

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -9

app.py CHANGED Viewed

@@ -47,14 +47,14 @@ processor.feature_extractor._processor_class = "Wav2Vec2ProcessorWithLM"
 # transcriber_hindi_lm = pipeline("automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new", tokenizer=processor_with_lm, feature_extractor=processor_with_lm.feature_extractor, decoder=processor_with_lm.decoder)
-def transcribe_tamil_new(audio):
-    # # Process the audio file
-    transcript = transcriber_taml_new(audio)
-    text_value = transcript['text']
-    processd_doubles=process_doubles(text_value)
-    replaced_words = replace_words(processd_doubles)
-    converted_text=text_to_int(replaced_words)
-    return converted_text
 ###############################################
@@ -93,6 +93,27 @@ def Noise_cancellation_function(audio_file):
 #################################################
 def sel_lng(lng, mic=None, file=None):
     if mic is not None:
         audio = mic
@@ -102,7 +123,7 @@ def sel_lng(lng, mic=None, file=None):
         return "You must either provide a mic recording or a file"
     if lng == "model_1":
-        return Noise_cancellation_function(audio)
     # elif lng == "model_2":
     #     return transcribe_hindi_new(audio)
     # elif lng== "model_3":

 # transcriber_hindi_lm = pipeline("automatic-speech-recognition", model="cdactvm/w2v-bert-tamil_new", tokenizer=processor_with_lm, feature_extractor=processor_with_lm.feature_extractor, decoder=processor_with_lm.decoder)
+# def transcribe_tamil_new(audio):
+#     # # Process the audio file
+#     transcript = transcriber_taml_new(audio)
+#     text_value = transcript['text']
+#     processd_doubles=process_doubles(text_value)
+#     replaced_words = replace_words(processd_doubles)
+#     converted_text=text_to_int(replaced_words)
+#     return converted_text
 ###############################################
 #################################################
+# Function to handle speech recognition
+def recognize_speech(audio_file):
+    audio, sr = librosa.load(audio_file, sr=16000)
+    audio = high_pass_filter(audio, sr)
+    audio = apply_wiener_filter(audio)
+    denoised_audio = wavelet_denoise(audio)
+    result = asr_model(denoised_audio)
+    text_value = result['text']
+    cleaned_text = text_value.replace("<s>", "")
+    print(cleaned_text)
+    converted_to_list = convert_to_list(cleaned_text, text_to_list())
+    print(converted_to_list)
+    processed_doubles = process_doubles(converted_to_list)
+    print(processed_doubles)
+    replaced_words = replace_words(processed_doubles)
+    print(replaced_words)
+    converted_text = text_to_int(replaced_words)
+    print(converted_text)
+    return converted_text
 def sel_lng(lng, mic=None, file=None):
     if mic is not None:
         audio = mic
         return "You must either provide a mic recording or a file"
     if lng == "model_1":
+        return recognize_speech(audio)
     # elif lng == "model_2":
     #     return transcribe_hindi_new(audio)
     # elif lng== "model_3":