eval-leaderboard

Running

xeon27 commited on Jan 16

Commit

006ba57

1 Parent(s): a004e6b

Add base eval tasks

Files changed (1) hide show

src/about.py CHANGED Viewed

@@ -12,8 +12,22 @@ class Task:
 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    task0 = Task("anli_r1", "acc", "ANLI")
-    task1 = Task("logiqa", "acc_norm", "LogiQA")
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------

 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    # task0 = Task("anli_r1", "acc", "ANLI")
+    # task1 = Task("logiqa", "acc_norm", "LogiQA")
+    task0 = Task("arc_easy", "accuracy", "ARC-Easy")
+    task1 = Task("arc_challenge", "accuracy", "ARC-Challenge")
+    task2 = Task("drop", "mean", "DROP")
+    task3 = Task("winogrande", "accuracy", "WinoGrande")
+    task4 = Task("gsm8k", "accuracy", "GSM8K")
+    task5 = Task("hellaswag", "accuracy", "HellaSwag")
+    task6 = Task("humaneval", "mean", "HumanEval")
+    task7 = Task("ifeval", "final_acc", "IFEval")
+    task8 = Task("math", "accuracy", "MATH")
+    task9 = Task("mmlu", "accuracy", "MMLU")
+    task10 = Task("mmlu_pro", "accuracy", "MMLU-Pro")
+    task11 = Task("gpqa_diamond", "accuracy", "GPQA-Diamond")
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------