Spaces:

MALIBA-AI
/

bambara-asr-leaderboard

Running

App Files Files Community

sudoping01 commited on Mar 15

Commit

60c60cf

verified ·

1 Parent(s): 3efa4cc

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -20

app.py CHANGED Viewed

@@ -1,17 +1,10 @@
 import gradio as gr
 import pandas as pd
 from datasets import load_dataset
-from jiwer import wer, cer, transforms
 import os
 from datetime import datetime
-# Define text normalization transform
-transform = transforms.Compose([
-    transforms.RemovePunctuation(),
-    transforms.ToLowerCase(),
-    transforms.RemoveWhiteSpace(replace_by_space=True),
-])
 # Load the Bambara ASR dataset
 dataset = load_dataset("sudoping01/bambara-asr-benchmark", name="default")["train"]
 references = {row["id"]: row["text"] for row in dataset}
@@ -21,6 +14,25 @@ leaderboard_file = "leaderboard.csv"
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["submitter", "WER", "CER", "timestamp"]).to_csv(leaderboard_file, index=False)
 def process_submission(submitter_name, csv_file):
     try:
         # Read and validate the uploaded CSV
@@ -39,22 +51,22 @@ def process_submission(submitter_name, csv_file):
         wers, cers = [], []
         for _, row in df.iterrows():
-            ref = str(references[row["id"]])  # Ensure reference is a string
-            pred = str(row["text"])  # Ensure prediction is a string
-            # Apply transformation directly to the text strings before WER/CER calculation
-            ref_transformed = " ".join(transform(ref).split())
-            pred_transformed = " ".join(transform(pred).split())
-            # Check if transformation produced valid result
-            if not ref_transformed or not pred_transformed:
-                return f"Error: Empty string after transformation for id {row['id']}", None
-            # Calculate metrics without transform parameter (we pre-transformed)
-            wers.append(wer(ref_transformed, pred_transformed))
-            cers.append(cer(ref_transformed, pred_transformed))
         # Compute average WER and CER
         avg_wer = sum(wers) / len(wers)
         avg_cer = sum(cers) / len(cers)

 import gradio as gr
 import pandas as pd
 from datasets import load_dataset
+from jiwer import wer, cer
 import os
 from datetime import datetime
 # Load the Bambara ASR dataset
 dataset = load_dataset("sudoping01/bambara-asr-benchmark", name="default")["train"]
 references = {row["id"]: row["text"] for row in dataset}
 if not os.path.exists(leaderboard_file):
     pd.DataFrame(columns=["submitter", "WER", "CER", "timestamp"]).to_csv(leaderboard_file, index=False)
+def preprocess_text(text):
+    """
+    Custom text preprocessing to handle Bambara text properly
+    """
+    # Convert to string in case it's not
+    text = str(text)
+    # Remove punctuation
+    for punct in [',', '.', '!', '?', ';', ':', '"', "'"]:
+        text = text.replace(punct, '')
+    # Convert to lowercase
+    text = text.lower()
+    # Normalize whitespace
+    text = ' '.join(text.split())
+    return text
 def process_submission(submitter_name, csv_file):
     try:
         # Read and validate the uploaded CSV
         wers, cers = [], []
         for _, row in df.iterrows():
+            ref = preprocess_text(references[row["id"]])
+            pred = preprocess_text(row["text"])
+            # Check if either text is empty after preprocessing
+            if not ref or not pred:
+                continue
+            # Calculate metrics with no transform (we did preprocessing already)
+            # This avoids the error with jiwer's transform
+            wers.append(wer(ref, pred))
+            cers.append(cer(ref, pred))
         # Compute average WER and CER
+        if not wers or not cers:
+            return "Error: No valid text pairs for evaluation after preprocessing.", None
         avg_wer = sum(wers) / len(wers)
         avg_cer = sum(cers) / len(cers)