Spaces:

justus-tobias
/

ASR_Model_Comparison

Paused

App Files Files Community

j-tobias commited on Aug 13, 2024

Commit

8414736

1 Parent(s): d521dce

new model + new dataset

Browse files

Files changed (4) hide show

__pycache__/processing.cpython-310.pyc +0 -0
app.py +12 -12
cards.txt +9 -0
processing.py +43 -16

__pycache__/processing.cpython-310.pyc ADDED Viewed

Binary file (6.05 kB). View file

app.py CHANGED Viewed

@@ -11,12 +11,12 @@ import os
 hf_token = os.getenv("HF_Token")
 login(hf_token)
-def hf_login():
-    hf_token = os.getenv("HF_Token")
-    if hf_token is None:
-        with open("credentials.json", "r") as f:
-            hf_token = json.load(f)["token"]
-    login(token=hf_token, add_to_git_credential=True)
 # hf_login()
@@ -25,8 +25,8 @@ def hf_login():
 # GENERAL OPTIONS FOR MODELS AND DATASETS
-MODEL_OPTIONS = ["openai/whisper-tiny.en", "facebook/s2t-medium-librispeech-asr"]
-DATASET_OPTIONS = ["Common Voice", "OWN Recoding/Sample"]
 # HELPER FUNCTIONS
 def get_card(selected_model:str)->str:
@@ -48,7 +48,7 @@ def is_own(selected_option):
         return gr.update(visible=False), gr.update(visible=False)
 def make_visible():
-    return gr.update(visible=True), gr.update(visible=True)
@@ -83,7 +83,7 @@ Happy experimenting and comparing! 🚀""")
                 choices=DATASET_OPTIONS,
                 label="Data subset / Own Sample",
             )
-            own_audio = gr.Audio(visible=False)
             own_transcription = gr.TextArea(lines=2, visible=False)
             data_subset.change(is_own, inputs=[data_subset], outputs=[own_audio, own_transcription])
         with gr.Column(scale=1):
@@ -116,7 +116,7 @@ Happy experimenting and comparing! 🚀""")
         variant="primary",
         size="sm")
-    gr.Markdown('## <p style="text-align: center;">Results</p>')
     results_md = gr.Markdown("")
     results_plot = gr.Plot(show_label=False, visible=False)
     results_df = gr.DataFrame(
@@ -125,7 +125,7 @@ Happy experimenting and comparing! 🚀""")
         interactive=False,  # Allow users to interact with the DataFrame
         wrap=True,  # Ensure text wraps to multiple lines
     )
-    eval_btn.click(make_visible, outputs=[results_plot, results_df])
     eval_btn.click(run, [data_subset, model_1, model_2, own_audio, own_transcription], [results_md, results_plot, results_df], show_progress=False)
 demo.launch(debug=True)

 hf_token = os.getenv("HF_Token")
 login(hf_token)
+# def hf_login():
+#     hf_token = os.getenv("HF_Token")
+#     if hf_token is None:
+#         with open("credentials.json", "r") as f:
+#             hf_token = json.load(f)["token"]
+#     login(token=hf_token, add_to_git_credential=True)
 # hf_login()
 # GENERAL OPTIONS FOR MODELS AND DATASETS
+MODEL_OPTIONS = ["openai/whisper-tiny.en", "facebook/s2t-medium-librispeech-asr", "facebook/wav2vec2-base-960h"]
+DATASET_OPTIONS = ["Common Voice", "Librispeech ASR clean", "OWN Recoding/Sample"]
 # HELPER FUNCTIONS
 def get_card(selected_model:str)->str:
         return gr.update(visible=False), gr.update(visible=False)
 def make_visible():
+    return gr.update(visible=True), gr.update(visible=True), gr.update(visible=True)
                 choices=DATASET_OPTIONS,
                 label="Data subset / Own Sample",
             )
+            own_audio = gr.Audio(sources=['microphone'], visible=False)
             own_transcription = gr.TextArea(lines=2, visible=False)
             data_subset.change(is_own, inputs=[data_subset], outputs=[own_audio, own_transcription])
         with gr.Column(scale=1):
         variant="primary",
         size="sm")
+    results_title = gr.Markdown('## <p style="text-align: center;">Results</p>', visible=False)
     results_md = gr.Markdown("")
     results_plot = gr.Plot(show_label=False, visible=False)
     results_df = gr.DataFrame(
         interactive=False,  # Allow users to interact with the DataFrame
         wrap=True,  # Ensure text wraps to multiple lines
     )
+    eval_btn.click(make_visible, outputs=[results_plot, results_df, results_title])
     eval_btn.click(run, [data_subset, model_1, model_2, own_audio, own_transcription], [results_md, results_plot, results_df], show_progress=False)
 demo.launch(debug=True)

cards.txt CHANGED Viewed

@@ -15,4 +15,13 @@
 - Model Size: 71.2 M Parameters
 - Model Paper: [fairseq S2T: Fast Speech-to-Text Modeling with fairseq](https://arxiv.org/abs/2010.05171)
 - Training Data: [LibriSpeech ASR Corpus](https://www.openslr.org/12)
 @@

 - Model Size: 71.2 M Parameters
 - Model Paper: [fairseq S2T: Fast Speech-to-Text Modeling with fairseq](https://arxiv.org/abs/2010.05171)
 - Training Data: [LibriSpeech ASR Corpus](https://www.openslr.org/12)
+@@
+####
+- ID: facebook/wav2vec2-base-960h
+- Hugging Face: [model](https://huggingface.co/facebook/wav2vec2-base-960h)
+- Creator: facebook
+- Finetuned: No
+- Model Size: 94.4 M Parameters
+- Model Paper: [Wav2vec 2.0: Learning the structure of speech from raw audio](https://ai.meta.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/)
+- Training Data: ?
 @@

processing.py CHANGED Viewed

@@ -1,10 +1,12 @@
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor
 import plotly.graph_objs as go
 from datasets import load_dataset
 from datasets import Audio
 import evaluate
 import librosa
 import numpy as np
 import pandas as pd
@@ -25,6 +27,8 @@ def run(data_subset:str, model_1:str, model_2:str, own_audio, own_transcription:
         dataset, text_column = load_Common_Voice()
     elif data_subset == "VoxPopuli":
         dataset, text_column = load_Vox_Populi()
     elif data_subset == "OWN Recoding/Sample":
         sr, audio = own_audio
         audio = audio.astype(np.float32) / 32768.0
@@ -50,8 +54,8 @@ def run(data_subset:str, model_1:str, model_2:str, own_audio, own_transcription:
         transcriptions2 = [transcription2]
         references = [own_transcription]
-        wer1 = compute_wer(references, transcriptions1)
-        wer2 = compute_wer(references, transcriptions2)
         results_md = f"""
         #### {model_1}
@@ -113,16 +117,16 @@ def run(data_subset:str, model_1:str, model_2:str, own_audio, own_transcription:
             {i}/{len(dataset)}-{'#'*i}{'_'*(N_SAMPLES-i)}
             #### {model_1}
-            - WER Score: {sum(WER1s)/N_SAMPLES}
             #### {model_2}
-            - WER Score: {sum(WER2s)/N_SAMPLES}"""
             # Create the bar plot
             fig = go.Figure(
                 data=[
-                    go.Bar(x=[f"{model_1}"], y=[sum(WER1s)/N_SAMPLES], showlegend=False),
-                    go.Bar(x=[f"{model_2}"], y=[sum(WER2s)/N_SAMPLES], showlegend=False),
                 ]
             )
@@ -148,6 +152,8 @@ def load_Common_Voice():
     dataset = dataset.take(N_SAMPLES)
     dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
     dataset = list(dataset)
     return dataset, text_column
 def load_Vox_Populi():
@@ -174,6 +180,17 @@ def load_Vox_Populi():
     dataset = list(dataset)
     return dataset, text_column
 def is_valid_sample(text, audio):
     # Check if 'normalized_text' is valid
     text = text.strip()
@@ -200,6 +217,9 @@ def load_model(model_id:str):
     elif model_id == "facebook/s2t-medium-librispeech-asr":
         model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
         processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr")
     else:
         model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny.en")
         processor = WhisperProcessor.from_pretrained("openai/whisper-tiny.en")
@@ -215,25 +235,32 @@ def model_compute(model, processor, sample, model_id):
         input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
         predicted_ids = model.generate(input_features)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-        return transcription[0]
     elif model_id == "facebook/s2t-medium-librispeech-asr":
         sample = sample["audio"]
         features = processor(sample["array"], sampling_rate=16000, padding=True, return_tensors="pt")
         input_features = features.input_features
         attention_mask = features.attention_mask
         gen_tokens = model.generate(input_features=input_features, attention_mask=attention_mask)
-        transcription= processor.batch_decode(gen_tokens, skip_special_tokens=True)[0]
-        return transcription
     else:
-        return model(sample)
 # UTILS
 def compute_wer(references, predictions):
     wer = wer_metric.compute(references=references, predictions=predictions)
-    wer = round(N_SAMPLES * wer, 2)
     return wer
-# print(load_Vox_Populi())
-# print(run("Common Voice", "openai/whisper-tiny.en", "openai/whisper-tiny.en", None, None))

 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 from transformers import Speech2TextForConditionalGeneration, Speech2TextProcessor
+from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 import plotly.graph_objs as go
 from datasets import load_dataset
 from datasets import Audio
 import evaluate
 import librosa
+import torch
 import numpy as np
 import pandas as pd
         dataset, text_column = load_Common_Voice()
     elif data_subset == "VoxPopuli":
         dataset, text_column = load_Vox_Populi()
+    elif data_subset == "Librispeech ASR clean":
+        dataset, text_column = load_Librispeech_ASR_clean()
     elif data_subset == "OWN Recoding/Sample":
         sr, audio = own_audio
         audio = audio.astype(np.float32) / 32768.0
         transcriptions2 = [transcription2]
         references = [own_transcription]
+        wer1 = round(N_SAMPLES * compute_wer(references, transcriptions1), 2)
+        wer2 = round(N_SAMPLES * compute_wer(references, transcriptions2), 2)
         results_md = f"""
         #### {model_1}
             {i}/{len(dataset)}-{'#'*i}{'_'*(N_SAMPLES-i)}
             #### {model_1}
+            - WER Score: {round(sum(WER1s)/len(WER1s), 2)}
             #### {model_2}
+            - WER Score: {round(sum(WER2s)/len(WER2s), 2)}"""
             # Create the bar plot
             fig = go.Figure(
                 data=[
+                    go.Bar(x=[f"{model_1}"], y=[sum(WER1s)/len(WER1s)], showlegend=False),
+                    go.Bar(x=[f"{model_2}"], y=[sum(WER2s)/len(WER2s)], showlegend=False),
                 ]
             )
     dataset = dataset.take(N_SAMPLES)
     dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
     dataset = list(dataset)
+    for sample in dataset:
+        sample["text"] = sample["text"].lower()
     return dataset, text_column
 def load_Vox_Populi():
     dataset = list(dataset)
     return dataset, text_column
+def load_Librispeech_ASR_clean():
+    dataset = load_dataset("librispeech_asr", "clean", split="test", streaming=True, token=True, trust_remote_code=True)
+    print(next(iter(dataset)))
+    text_column = "text"
+    dataset = dataset.take(N_SAMPLES)
+    dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
+    dataset = list(dataset)
+    for sample in dataset:
+        sample["text"] = sample["text"].lower()
+    return dataset, text_column
 def is_valid_sample(text, audio):
     # Check if 'normalized_text' is valid
     text = text.strip()
     elif model_id == "facebook/s2t-medium-librispeech-asr":
         model = Speech2TextForConditionalGeneration.from_pretrained("facebook/s2t-medium-librispeech-asr")
         processor = Speech2TextProcessor.from_pretrained("facebook/s2t-medium-librispeech-asr")
+    elif model_id == "facebook/wav2vec2-base-960h":
+        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")
+        model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
     else:
         model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny.en")
         processor = WhisperProcessor.from_pretrained("openai/whisper-tiny.en")
         input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
         predicted_ids = model.generate(input_features)
         transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+        transcription = processor.tokenizer.normalize(transcription[0])
+        return transcription
     elif model_id == "facebook/s2t-medium-librispeech-asr":
         sample = sample["audio"]
         features = processor(sample["array"], sampling_rate=16000, padding=True, return_tensors="pt")
         input_features = features.input_features
         attention_mask = features.attention_mask
         gen_tokens = model.generate(input_features=input_features, attention_mask=attention_mask)
+        transcription= processor.batch_decode(gen_tokens, skip_special_tokens=True)
+        return transcription[0]
+    elif model_id == "facebook/wav2vec2-base-960h":
+        sample = sample["audio"]
+        input_values = processor(sample["array"], sampling_rate=16000, return_tensors="pt", padding="longest").input_values  # Batch size 1
+        logits = model(input_values).logits
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = processor.batch_decode(predicted_ids)
+        return transcription[0].lower()
     else:
+        sample = sample["audio"]
+        input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
+        predicted_ids = model.generate(input_features)
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+        return transcription[0]
 # UTILS
 def compute_wer(references, predictions):
     wer = wer_metric.compute(references=references, predictions=predictions)
     return wer