Spaces:

Noumida
/

ASR_IndicConformer

Sleeping

App Files Files Community

Noumida commited on Jul 22

Commit

f7212d2

verified ·

1 Parent(s): 73832eb

Create app.py

Browse files

Files changed (1) hide show

app.py +52 -0

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import os
+import torch
+import torchaudio
+import gradio as gr
+import nemo.collections.asr as nemo_asr
+# Select device
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+# Load CTC and RNNT models from AI4Bharat
+asr_ctc = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("ai4bharat/indicwhisper-ctc-indic").to(device)
+asr_rnnt = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("ai4bharat/indicwhisper-rnnt-indic").to(device)
+# All 22 scheduled Indian languages
+language_options = [
+    "Assamese", "Bengali", "Bodo", "Dogri", "Gujarati", "Hindi",
+    "Kannada", "Kashmiri", "Konkani", "Maithili", "Malayalam",
+    "Manipuri", "Marathi", "Nepali", "Odia", "Punjabi", "Sanskrit",
+    "Santali", "Sindhi", "Tamil", "Telugu", "Urdu"
+]
+# CTC ASR function
+def run_asr_ctc(audio_path, source_lang):
+    asr_ctc.change_vocabulary(language=source_lang)
+    return asr_ctc.transcribe(paths2audio_files=[audio_path])[0]
+# RNNT ASR function
+def run_asr_rnnt(audio_path, source_lang):
+    asr_rnnt.change_vocabulary(language=source_lang)
+    return asr_rnnt.transcribe(paths2audio_files=[audio_path])[0]
+# Gradio UI
+with gr.Blocks() as demo:
+    gr.Markdown("## AI4Bharat Indic ASR (CTC & RNNT)")
+    with gr.Tab("CTC Transcription"):
+        with gr.Row():
+            input_audio = gr.Audio(type="filepath", label="Upload Audio")
+            source_lang = gr.Dropdown(choices=language_options, label="Language", value="Hindi")
+        output_text_ctc = gr.Textbox(label="CTC Transcription Output")
+        ctc_button = gr.Button("Transcribe (CTC)")
+        ctc_button.click(run_asr_ctc, inputs=[input_audio, source_lang], outputs=output_text_ctc)
+    with gr.Tab("RNNT Transcription"):
+        with gr.Row():
+            input_audio_rnnt = gr.Audio(type="filepath", label="Upload Audio")
+            source_lang_rnnt = gr.Dropdown(choices=language_options, label="Language", value="Hindi")
+        output_text_rnnt = gr.Textbox(label="RNNT Transcription Output")
+        rnnt_button = gr.Button("Transcribe (RNNT)")
+        rnnt_button.click(run_asr_rnnt, inputs=[input_audio_rnnt, source_lang_rnnt], outputs=output_text_rnnt)
+demo.launch()