open-r1-eval-leaderboard

Running

lewtun HF Staff commited on Mar 18, 2024

Commit

69bc633

1 Parent(s): 9d1c3ff

Set merge as default

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ Evaluation of H4 and community models across a diverse range of benchmarks from
 """
-def get_leaderboard_df(merge_values: bool = False):
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
@@ -47,6 +47,9 @@ def get_leaderboard_df(merge_values: bool = False):
             # HellaSwag and ARC reports acc_norm
             elif task.lower() in ["hellaswag", "arc"]:
                 value = data["results"][first_result_key]["acc_norm"]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
@@ -76,7 +79,7 @@ def get_leaderboard_df(merge_values: bool = False):
     return df
-def refresh(merge_values: bool = False):
     return get_leaderboard_df(merge_values)

 """
+def get_leaderboard_df(merge_values: bool = True):
     filepaths = list(Path("eval_results").rglob("*.json"))
     # Parse filepaths to get unique models
             # HellaSwag and ARC reports acc_norm
             elif task.lower() in ["hellaswag", "arc"]:
                 value = data["results"][first_result_key]["acc_norm"]
+            # BBH has several metrics but we report just the average one
+            elif task.lower() == "bbh":
+                value = [v["em"] for k, v in data["results"].items() if "_average" in k.lower()][0]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
     return df
+def refresh(merge_values: bool = True):
     return get_leaderboard_df(merge_values)