H2H-eval-comparator

Sleeping

rohansampath commited on Feb 15

Commit

35f8612

verified ·

1 Parent(s): 00afad7

Update mmlu_eval.py

Files changed (1) hide show

mmlu_eval.py CHANGED Viewed

@@ -66,12 +66,15 @@ def evaluate_mmlu(model, tokenizer, num_questions_per_task=5):
         references = []
         for sample in sampled_questions:
             question = sample["question"]
             choices = [sample["choices"][i] for i in range(4)]
             # Convert numeric answer to letter (0->A, 1->B, etc.)
             correct_answer = chr(65 + sample["answer"])
             model_output = generate_answer(model, tokenizer, question, choices)
             predictions.append(model_output)
             references.append(correct_answer)

         references = []
         for sample in sampled_questions:
+            print ("TASK", task_name, "Sample", sample)
             question = sample["question"]
             choices = [sample["choices"][i] for i in range(4)]
             # Convert numeric answer to letter (0->A, 1->B, etc.)
             correct_answer = chr(65 + sample["answer"])
+            print ("question:", question, "\n choices:", choices, "\n correct answer:", correct_answer)
             model_output = generate_answer(model, tokenizer, question, choices)
+            print ("model output:", model_output)
             predictions.append(model_output)
             references.append(correct_answer)