open-r1-eval-leaderboard

Running

lewtun HF Staff commited on Apr 30, 2024

Commit

1cb92d9

1 Parent(s): 0ff2e8c

Add AlpacaEval

Files changed (1) hide show

app.py CHANGED Viewed

@@ -64,6 +64,9 @@ def get_leaderboard_df(merge_values: bool = True):
             # MATH reports qem
             elif task.lower() in ["math", "math_v2", "aimo_kaggle"]:
                 value = data["results"]["all"]["qem"]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
@@ -80,13 +83,15 @@ def get_leaderboard_df(merge_values: bool = True):
             else:
                 df.loc[model_revision, task] = value
-    # Put IFEval / BBH / AGIEval in first columns
     ifeval_col = df.pop("Ifeval")
-    df.insert(1, "Ifeval", ifeval_col)
     bbh_col = df.pop("Bbh")
-    df.insert(2, "Bbh", bbh_col)
     agieval_col = df.pop("Agieval")
-    df.insert(3, "Agieval", agieval_col)
     # Drop rows where every entry is NaN
     df = df.dropna(how="all", axis=0, subset=[c for c in df.columns if c != "Date"])
     df.insert(loc=1, column="Average", value=df.mean(axis=1, numeric_only=True))

             # MATH reports qem
             elif task.lower() in ["math", "math_v2", "aimo_kaggle"]:
                 value = data["results"]["all"]["qem"]
+            # Report length controlled winrate for AlpacaEval
+            elif task.lower() == "alpaca_eval":
+                value = data["results"][first_result_key]["length_controlled_winrate"] / 100.0
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
             else:
                 df.loc[model_revision, task] = value
+    # Put IFEval / BBH / AGIEval / AlpacaEval in first columns
+    alpaca_col = df.pop("Alpaca_eval")
+    df.insert(1, "Alpaca_eval", alpaca_col)
     ifeval_col = df.pop("Ifeval")
+    df.insert(2, "Ifeval", ifeval_col)
     bbh_col = df.pop("Bbh")
+    df.insert(3, "Bbh", bbh_col)
     agieval_col = df.pop("Agieval")
+    df.insert(4, "Agieval", agieval_col)
     # Drop rows where every entry is NaN
     df = df.dropna(how="all", axis=0, subset=[c for c in df.columns if c != "Date"])
     df.insert(loc=1, column="Average", value=df.mean(axis=1, numeric_only=True))