OpenLLMFrenchLeaderboard

Running

malhajar commited on Oct 21, 2024

Commit

7cb82bd

verified ·

1 Parent(s): be8be25

Update src/display/about.py

Files changed (1) hide show

src/display/about.py CHANGED Viewed

@@ -15,7 +15,7 @@ class Tasks(Enum):
     task1 = Task("GPQA", "metric_name", "GPQA")
     task2 = Task("IFEval", "metric_name", "IFEval")
     task3 = Task("MUSR", "metric_name", "MUSR")
-    task4 = Task("GSM8K", "metric_name", "GSM8K")
     task5 = Task("MMMLU-fr", "metric_name", "MMMLU-fr")
@@ -55,7 +55,7 @@ lm_eval --model vllm --model_args="pretrained=OpenLLM-France/Claire-7B-FR-Instru
 Les tâches et les paramètres de few-shot sont :
 - BBH : 3-shot, *Big-Bench-Hard* (`acc_norm`)
 - IFEval : 0-shot, *Instruction Following Evaluation* (inst_level_strict_acc,none et prompt_level_strict_acc,none)
-- GPQA : 0-shot, *Generalized Purpose Question Answering* (`acc_norm`)
 - MMLU : 5-shot, (average of all the results `acc`)
 - MuSR : 5-shot, *MuSR* (`acc_norm`)
 - GSM8k : 5-shot, *gsm8k* (`acc`)

     task1 = Task("GPQA", "metric_name", "GPQA")
     task2 = Task("IFEval", "metric_name", "IFEval")
     task3 = Task("MUSR", "metric_name", "MUSR")
+    task4 = Task("MATH Lvl 5", "metric_name", "MATH Lvl 5")
     task5 = Task("MMMLU-fr", "metric_name", "MMMLU-fr")
 Les tâches et les paramètres de few-shot sont :
 - BBH : 3-shot, *Big-Bench-Hard* (`acc_norm`)
 - IFEval : 0-shot, *Instruction Following Evaluation* (inst_level_strict_acc,none et prompt_level_strict_acc,none)
+- MATH : 4-shot, *LVL 5* (exact_match,none)
 - MMLU : 5-shot, (average of all the results `acc`)
 - MuSR : 5-shot, *MuSR* (`acc_norm`)
 - GSM8k : 5-shot, *gsm8k* (`acc`)