Spaces:

justus-tobias
/

ASR_Model_Comparison

Paused

j-tobias commited on Aug 12, 2024

Commit

61ba593

1 Parent(s): 378c937

added Model Cards

Files changed (4) hide show

app.py CHANGED Viewed

@@ -1,12 +1,17 @@
 import gradio as gr # needs to be installed
-import os
 from dataset import Dataset
 from model import Model
-from huggingface_hub import login
 from utils import compute_wer
 hf_token = os.getenv("HF_Token")
-login(token=hf_token, add_to_git_credential=True)
 dataset = Dataset()
 models = Model()
@@ -33,14 +38,15 @@ def eval(data_subset:str, model_1:str, model_2:str)->str:
 def get_card(selected_model:str)->str:
-    if selected_model == "None":
-        return ""
-    elif selected_model == "Model2":
-        return "A very good model indeed"
-    elif selected_model == "Model3":
-        return "Also very good"
-    else:
-        return "Unknown Model"
 def is_own(data_subset:str):
     if data_subset == "own":

 import gradio as gr # needs to be installed
 from dataset import Dataset
 from model import Model
 from utils import compute_wer
+# from utils import hf_login
+# hf_login()
+from huggingface_hub import login
+import os
 hf_token = os.getenv("HF_Token")
+login(hf_token)
 dataset = Dataset()
 models = Model()
 def get_card(selected_model:str)->str:
+    with open("cards.txt", "r") as f:
+        cards = f.read()
+    cards = cards.split("@@")
+    for card in cards:
+        if "ID: "+selected_model in card:
+            return card
+    return "Unknown Model"
 def is_own(data_subset:str):
     if data_subset == "own":

cards.txt CHANGED Viewed

@@ -1,5 +1,18 @@
 #### Whisper Tiny (EN)
--
 @@
 @@

 #### Whisper Tiny (EN)
+- ID: openai/whisper-tiny.en
+- Hugging Face: [model](https://huggingface.co/openai/whisper-tiny.en)
+- Creator: openai
+- Finetuned: No
+- Model Size: 39 M Parameters
+- Model Paper: [Robust Speech Recognition via Large-Scale Weak Supervision](https://cdn.openai.com/papers/whisper.pdf)
+- Training Data: The models are trained on 680,000 hours of audio and the corresponding transcripts collected from the internet. 65% of this data (or 438,000 hours) represents English-language audio and matched English transcripts, roughly 18% (or 126,000 hours) represents non-English audio and English transcripts, while the final 17% (or 117,000 hours) represents non-English audio and the corresponding transcript. This non-English data represents 98 different languages.
 @@
+#### S2T Medium ASR
+- ID: facebook/s2t-medium-librispeech-asr
+- Hugging Face: [model](https://huggingface.co/facebook/s2t-medium-librispeech-asr)
+- Creator: facebook
+- Finetuned: No
+- Model Size: 71.2 M Parameters
+- Model Paper: [fairseq S2T: Fast Speech-to-Text Modeling with fairseq](https://arxiv.org/abs/2010.05171)
+- Training Data: [LibriSpeech ASR Corpus](https://www.openslr.org/12)
 @@

model.py CHANGED Viewed

@@ -97,8 +97,11 @@ class Model:
         predictions = []
         references = []
         for sample in result:
             predictions.append(sample['transcription'])
-            references.append(sample['text'])
         return references, predictions

         predictions = []
         references = []
+        DaTaSeT._check_text()
+        text_column = DaTaSeT.text
         for sample in result:
             predictions.append(sample['transcription'])
+            references.append(sample[text_column])
         return references, predictions

utils.py CHANGED Viewed

@@ -1,15 +1,15 @@
-# from huggingface_hub import login
-# import json
 import evaluate
-# import os
-# def hf_login():
-#     hf_token = os.getenv("HF_Token")
-#     print(hf_token)
-#     # if hf_token is None:
-#     #     with open("credentials.json", "r") as f:
-#     #         hf_token = json.load(f)["token"]
-#     login(token=hf_token, add_to_git_credential=True)
 def data(dataset):
     for i, item in enumerate(dataset):

+from huggingface_hub import login
+import json
 import evaluate
+import os
+def hf_login():
+    hf_token = os.getenv("HF_Token")
+    print(hf_token)
+    if hf_token is None:
+        with open("credentials.json", "r") as f:
+            hf_token = json.load(f)["token"]
+    login(token=hf_token, add_to_git_credential=True)
 def data(dataset):
     for i, item in enumerate(dataset):