open-r1-eval-leaderboard

Running

lewtun HF Staff commited on May 27, 2024

Commit

d48b380

1 Parent(s): 3f32071

Fix PoT

Files changed (1) hide show

app.py CHANGED Viewed

@@ -77,6 +77,20 @@ def get_leaderboard_df(merge_values: bool = True):
                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
             # For AlpacaEval we report base winrate and lenght corrected one
             elif task.lower() == "alpaca_eval":
                 value = data["results"][first_result_key]["win_rate"]

                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
+            # For kaggle_pot we report N metrics, one for each prompt and store each one as a separate row in the dataframe
+            elif task.lower() in ["aimo_kaggle_medium_pot"]:
+                for k, v in data["results"].items():
+                    if k != "all" and "_average" not in k:
+                        version = k.split("|")[1].split(":")[-1]
+                        value = v["qem"]
+                        df.loc[model_revision, f"{task}_{version}"] = value
+            # For kaggle_pot we report N metrics, one for each prompt and store each one as a separate row in the dataframe
+            elif task.lower() in ["aimo_kaggle_hard_pot"]:
+                for k, v in data["results"].items():
+                    if k != "all" and "_average" not in k:
+                        version = k.split("|")[1].split(":")[-1]
+                        value = v["qem"]
+                        df.loc[model_revision, f"{task}_{version}"] = value
             # For AlpacaEval we report base winrate and lenght corrected one
             elif task.lower() == "alpaca_eval":
                 value = data["results"][first_result_key]["win_rate"]