H2H-eval-comparator

Sleeping

rohansampath commited on Feb 13

Commit

296d27c

verified ·

1 Parent(s): 9190bb9

Update mmlu_eval.py

Files changed (1) hide show

mmlu_eval.py CHANGED Viewed

@@ -43,6 +43,7 @@ def evaluate_mmlu(model, tokenizer, num_questions_per_task=5):
     incorrect_examples = []
     for task_name in mmlu_dataset.keys():
         dataset = mmlu_dataset[task_name]
         sampled_questions = random.sample(list(dataset), min(num_questions_per_task, len(dataset)))
@@ -50,6 +51,7 @@ def evaluate_mmlu(model, tokenizer, num_questions_per_task=5):
         references = []
         for sample in sampled_questions:
             question = sample["question"]
             correct_answer = str(sample["answer"]).strip().lower()
             model_output = generate_answer(model, tokenizer, question).strip().lower()

     incorrect_examples = []
     for task_name in mmlu_dataset.keys():
+        console.log ("TASK NAME", task_name)
         dataset = mmlu_dataset[task_name]
         sampled_questions = random.sample(list(dataset), min(num_questions_per_task, len(dataset)))
         references = []
         for sample in sampled_questions:
+            console.log ("SAMPLE", sample)
             question = sample["question"]
             correct_answer = str(sample["answer"]).strip().lower()
             model_output = generate_answer(model, tokenizer, question).strip().lower()