Spaces:

MBZUAI-LLM
/

Mobile-MMLU-Challenge

Running

App Files Files Community

SondosMB commited on Dec 20, 2024

Commit

e4f66e8

verified ·

1 Parent(s): 24a059f

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -9

app.py CHANGED Viewed

@@ -45,27 +45,75 @@ def evaluate_predictions(prediction_file):
     try:
         predictions_df = pd.read_csv(prediction_file.name)
         ground_truth_df = pd.read_csv(ground_truth_file)
-        filename = os.path.basename(prediction_file.name)
-        model_name = filename.split('_')[1].split('.')[0] if "_" in filename else "unknown_model"
-        merged_df = pd.merge(predictions_df, ground_truth_df, on='question_id', how='inner')
         merged_df['pred_answer'] = merged_df['predicted_answer'].apply(clean_answer)
-        correct_predictions = (merged_df['pred_answer'] == merged_df['Answer']).sum()
         total_predictions = len(merged_df)
-        overall_accuracy = correct_predictions / total_predictions
         results = {
             'model_name': model_name,
             'overall_accuracy': overall_accuracy,
-            'correct_predictions': correct_predictions,
             'total_questions': total_predictions,
         }
-        update_leaderboard(results)
-        return "Evaluation completed successfully! Leaderboard updated.", LEADERBOARD_FILE
     except Exception as e:
-        return f"Error: {str(e)}", None
 # Gradio Interface with Leaderboard
 def display_leaderboard():

     try:
         predictions_df = pd.read_csv(prediction_file.name)
         ground_truth_df = pd.read_csv(ground_truth_file)
+        # Extract model name
+        try:
+            filename = os.path.basename(prediction_file.name)
+            if "_" in filename and "." in filename:
+                model_name = filename.split('_')[1].split('.')[0]
+            else:
+                model_name = "unknown_model"
+        except IndexError:
+            model_name = "unknown_model"
+        # Merge dataframes
+        merged_df = pd.merge(
+            predictions_df,
+            ground_truth_df,
+            on='question_id',
+            how='inner'
+        )
         merged_df['pred_answer'] = merged_df['predicted_answer'].apply(clean_answer)
+        invalid_predictions = merged_df['pred_answer'].isna().sum()
+        valid_predictions = merged_df.dropna(subset=['pred_answer'])
+        correct_predictions = (valid_predictions['pred_answer'] == valid_predictions['Answer']).sum()
         total_predictions = len(merged_df)
+        total_valid_predictions = len(valid_predictions)
+        # Ensure no division by zero
+        overall_accuracy = correct_predictions / total_predictions if total_predictions > 0 else 0
+        valid_accuracy = (
+            correct_predictions / total_valid_predictions
+            if total_valid_predictions > 0
+            else 0
+        )
+        field_metrics = {}
+        for field in merged_df['Field'].unique():
+            field_data = merged_df[merged_df['Field'] == field]
+            field_valid_data = field_data.dropna(subset=['pred_answer'])
+            field_correct = (field_valid_data['pred_answer'] == field_valid_data['Answer']).sum()
+            field_total = len(field_data)
+            field_valid_total = len(field_valid_data)
+            field_invalid = field_total - field_valid_total
+            field_metrics[field] = {
+                'accuracy': field_correct / field_total if field_total > 0 else 0,
+                'valid_accuracy': field_correct / field_valid_total if field_valid_total > 0 else 0,
+                'correct': field_correct,
+                'total': field_total,
+                'invalid': field_invalid
+            }
         results = {
             'model_name': model_name,
             'overall_accuracy': overall_accuracy,
+            'valid_accuracy': valid_accuracy,
             'total_questions': total_predictions,
+            'valid_predictions': total_valid_predictions,
+            'invalid_predictions': invalid_predictions,
+            'correct_predictions': correct_predictions,
+            'field_performance': field_metrics
         }
+        output_file = "evaluation_results.txt"
+        write_evaluation_results(results, output_file)
+        return "Evaluation completed successfully!", output_file
     except Exception as e:
+        return f"Error during evaluation: {str(e)}", None
 # Gradio Interface with Leaderboard
 def display_leaderboard():