H2H-eval-comparator

Sleeping

App Files Files Community

rohansampath commited on Feb 13

Commit

9190bb9

verified ·

1 Parent(s): 1b7636f

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -6

app.py CHANGED Viewed

@@ -195,17 +195,34 @@ def run_evaluation():
 def run_mmlu_evaluation(num_questions):
     """
     Runs the MMLU evaluation with the specified number of questions per task.
     """
     results = evaluate_mmlu(model, tokenizer, num_questions)
     report = (
-        f"Overall Accuracy: {results['overall_accuracy']:.2f}\n"
-        f"Min Accuracy: {results['min_accuracy_task'][1]:.2f} on {results['min_accuracy_task'][0]}\n"
-        f"Max Accuracy: {results['max_accuracy_task'][1]:.2f} on {results['max_accuracy_task'][0]}"
     )
-    return report
 # ---------------------------------------------------------------------------
 # 6. Gradio Interface

 def run_mmlu_evaluation(num_questions):
     """
     Runs the MMLU evaluation with the specified number of questions per task.
+    Also displays two correct and two incorrect examples.
     """
     results = evaluate_mmlu(model, tokenizer, num_questions)
+    overall_accuracy = results["overall_accuracy"]
+    min_task, min_acc = results["min_accuracy_task"]
+    max_task, max_acc = results["max_accuracy_task"]
+    correct_examples = results["correct_examples"]
+    incorrect_examples = results["incorrect_examples"]
+    # Format examples for readability
+    def format_example(example):
+        task, question, model_output, correct_answer = example
+        return f"**Task:** {task}\n**Question:** {question}\n**Model Output:** {model_output}\n**Correct Answer:** {correct_answer}\n"
+    correct_text = "\n\n".join(format_example(ex) for ex in correct_examples)
+    incorrect_text = "\n\n".join(format_example(ex) for ex in incorrect_examples)
     report = (
+        f"### Overall Accuracy: {overall_accuracy:.2f}\n"
+        f"**Min Accuracy:** {min_acc:.2f} on `{min_task}`\n"
+        f"**Max Accuracy:** {max_acc:.2f} on `{max_task}`\n\n"
+        f"---\n\n"
+        f"### ✅ Correct Examples\n{correct_text if correct_examples else 'No correct examples available.'}\n\n"
+        f"### ❌ Incorrect Examples\n{incorrect_text if incorrect_examples else 'No incorrect examples available.'}"
     )
+    return report
 # ---------------------------------------------------------------------------
 # 6. Gradio Interface