H2H-eval-comparator

Sleeping

rohansampath commited on Feb 16

Commit

5d2ee20

verified ·

1 Parent(s): 3d567ab

Update mmlu_eval_original.py

Files changed (1) hide show

mmlu_eval_original.py CHANGED Viewed

@@ -78,6 +78,8 @@ def gen_prompt(df, subject, k=-1):
 def eval (subject, model, tokenizer, dev_df, test_df, num_questions_per_subject=5, train_shots=5):
     assert all(dev_df['subject'] == subject), f"Not all items in dev_df match subject {subject}"
     assert all(test_df['subject'] == subject), f"Not all items in test_df match subject {subject}"
     cors = []
     all_probs = []
@@ -101,7 +103,10 @@ def eval (subject, model, tokenizer, dev_df, test_df, num_questions_per_subject=
             input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(
                 model.device
             )
-        logger.info (f"Prompt: {prompt}")
         label = test_df.iloc[i, test_df.shape[1] - 1]
@@ -128,11 +133,11 @@ def eval (subject, model, tokenizer, dev_df, test_df, num_questions_per_subject=
         cor = pred == label
-        logger.info(f"Label: {label}")
-        logger.info(f"Logits: {logits}")
-        logger.info(f"Probabilities: {probs}")
-        logger.info(f"Prediction: {pred}")
-        logger.info(f"Correct: {cor}")
         cors.append(cor)
         all_probs.append(probs)

 def eval (subject, model, tokenizer, dev_df, test_df, num_questions_per_subject=5, train_shots=5):
     assert all(dev_df['subject'] == subject), f"Not all items in dev_df match subject {subject}"
     assert all(test_df['subject'] == subject), f"Not all items in test_df match subject {subject}"
+    logger.info(f"Subject: {subject}")
     cors = []
     all_probs = []
             input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(
                 model.device
             )
+        logger.info (f"Sample: {i}")
+        #logger.info (f"Prompt: {prompt}")
         label = test_df.iloc[i, test_df.shape[1] - 1]
         cor = pred == label
+        #logger.info(f"Label: {label}")
+        #logger.info(f"Logits: {logits}")
+        #logger.info(f"Probabilities: {probs}")
+        #logger.info(f"Prediction: {pred}")
+        #logger.info(f"Correct: {cor}")
         cors.append(cor)
         all_probs.append(probs)