Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 15

Commit

5d4699a

verified ·

1 Parent(s): 3bdb09a

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -12,18 +12,18 @@ transform = transforms.Compose([
     transforms.RemoveWhiteSpace(replace_by_space=True),
 ])
 dataset = load_dataset("sudoping01/bambara-asr-benchmark", name="default")["train"]
 references = {row["id"]: row["text"] for row in dataset}
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["submitter", "WER", "CER", "timestamp"]).to_csv(leaderboard_file, index=False)
 def process_submission(submitter_name, csv_file):
     try:
         df = pd.read_csv(csv_file)
         if set(df.columns) != {"id", "text"}:
             return "Error: CSV must contain exactly 'id' and 'text' columns.", None
@@ -32,7 +32,7 @@ def process_submission(submitter_name, csv_file):
         if set(df["id"]) != set(references.keys()):
             return "Error: CSV 'id's must match the dataset 'id's.", None
         wers, cers = [], []
         for _, row in df.iterrows():
             ref = references[row["id"]]
@@ -40,11 +40,11 @@ def process_submission(submitter_name, csv_file):
             wers.append(wer(ref, pred, truth_transform=transform, hypothesis_transform=transform))
             cers.append(cer(ref, pred, truth_transform=transform, hypothesis_transform=transform))
         avg_wer = sum(wers) / len(wers)
         avg_cer = sum(cers) / len(cers)
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         new_entry = pd.DataFrame(
@@ -58,7 +58,7 @@ def process_submission(submitter_name, csv_file):
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
         """

     transforms.RemoveWhiteSpace(replace_by_space=True),
 ])
+# Load the Bambara ASR dataset
 dataset = load_dataset("sudoping01/bambara-asr-benchmark", name="default")["train"]
 references = {row["id"]: row["text"] for row in dataset}
+# Load or initialize the leaderboard
 leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["submitter", "WER", "CER", "timestamp"]).to_csv(leaderboard_file, index=False)
 def process_submission(submitter_name, csv_file):
     try:
+        # Read and validate the uploaded CSV
         df = pd.read_csv(csv_file)
         if set(df.columns) != {"id", "text"}:
             return "Error: CSV must contain exactly 'id' and 'text' columns.", None
         if set(df["id"]) != set(references.keys()):
             return "Error: CSV 'id's must match the dataset 'id's.", None
+        # Calculate WER and CER for each prediction
         wers, cers = [], []
         for _, row in df.iterrows():
             ref = references[row["id"]]
             wers.append(wer(ref, pred, truth_transform=transform, hypothesis_transform=transform))
             cers.append(cer(ref, pred, truth_transform=transform, hypothesis_transform=transform))
+        # Compute average WER and CER
         avg_wer = sum(wers) / len(wers)
         avg_cer = sum(cers) / len(cers)
+        # Update the leaderboard
         leaderboard = pd.read_csv(leaderboard_file)
         timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
         new_entry = pd.DataFrame(
     except Exception as e:
         return f"Error processing submission: {str(e)}", None
+# Create the Gradio interface
 with gr.Blocks(title="Bambara ASR Leaderboard") as demo:
     gr.Markdown(
         """