H2H-eval-comparator

Sleeping

App Files Files Community

rohansampath commited on Feb 25

Commit

49b1770

verified ·

1 Parent(s): d99c3bf

Update mmlu_pro_eval_adapted.py

Browse files

Files changed (1) hide show

mmlu_pro_eval_adapted.py +10 -10

mmlu_pro_eval_adapted.py CHANGED Viewed

@@ -181,8 +181,8 @@ def batch_inference_debug_mode(llm, sampling_params, inference_batch, tokenizer)
         input_token_counts.append(input_tokens)
         output_token_counts.append(output_tokens)
-    logging.info("PRED BATCH: %s", pred_batch)
-    logging.info("RESPONSE BATCH: %s", response_batch)
     # Convert to DataFrame for logging (handle cases with fewer than 40 requests)
     num_samples = min(40, len(inference_batch))
@@ -190,7 +190,7 @@ def batch_inference_debug_mode(llm, sampling_params, inference_batch, tokenizer)
         'Input': inference_batch[:num_samples],
         'Response': response_batch[:num_samples]
     })
-    logging.info("\nSummary of first %d requests and responses:\n%s", num_samples, summary_df.to_string())
     # Total and average input/output token statistics
     total_input_tokens = sum(input_token_counts)
@@ -203,27 +203,27 @@ def batch_inference_debug_mode(llm, sampling_params, inference_batch, tokenizer)
     min_input_idx = np.argmin(input_token_counts)
     min_output_idx = np.argmin(output_token_counts)
-    logging.info("\nTotal input tokens: %d", total_input_tokens)
     logging.info("Total output tokens: %d", total_output_tokens)
     logging.info("Average input tokens: %.2f", avg_input_tokens)
     logging.info("Average output tokens: %.2f", avg_output_tokens)
-    logging.info("\nRequest with max input tokens: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  max_input_idx, input_token_counts[max_input_idx], inference_batch[max_input_idx], response_batch[max_input_idx])
-    logging.info("\nRequest with max output tokens: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  max_output_idx, output_token_counts[max_output_idx], inference_batch[max_output_idx], response_batch[max_output_idx])
-    logging.info("\nRequest with min input tokens: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  min_input_idx, input_token_counts[min_input_idx], inference_batch[min_input_idx], response_batch[min_input_idx])
-    logging.info("\nRequest with min output tokens: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  min_output_idx, output_token_counts[min_output_idx], inference_batch[min_output_idx], response_batch[min_output_idx])
     return pred_batch, response_batch
 def calculate_accuracy(res):
     """
     Calculate accuracy and return an array of correctness (1 if correct, 0 if wrong)

         input_token_counts.append(input_tokens)
         output_token_counts.append(output_tokens)
+    logging.info("\n----------- PRED BATCH -----------\n%s", pred_batch)
+    logging.info("\n----------- RESPONSE BATCH -----------\n%s", response_batch)
     # Convert to DataFrame for logging (handle cases with fewer than 40 requests)
     num_samples = min(40, len(inference_batch))
         'Input': inference_batch[:num_samples],
         'Response': response_batch[:num_samples]
     })
+    logging.info("\n----------- Summary of first %d requests and responses -----------\n%s", num_samples, summary_df.to_string())
     # Total and average input/output token statistics
     total_input_tokens = sum(input_token_counts)
     min_input_idx = np.argmin(input_token_counts)
     min_output_idx = np.argmin(output_token_counts)
+    logging.info("\n----------- Token Statistics -----------")
+    logging.info("Total input tokens: %d", total_input_tokens)
     logging.info("Total output tokens: %d", total_output_tokens)
     logging.info("Average input tokens: %.2f", avg_input_tokens)
     logging.info("Average output tokens: %.2f", avg_output_tokens)
+    logging.info("\n----------- Request with max input tokens -----------\nIndex: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  max_input_idx, input_token_counts[max_input_idx], inference_batch[max_input_idx], response_batch[max_input_idx])
+    logging.info("\n----------- Request with max output tokens -----------\nIndex: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  max_output_idx, output_token_counts[max_output_idx], inference_batch[max_output_idx], response_batch[max_output_idx])
+    logging.info("\n----------- Request with min input tokens -----------\nIndex: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  min_input_idx, input_token_counts[min_input_idx], inference_batch[min_input_idx], response_batch[min_input_idx])
+    logging.info("\n----------- Request with min output tokens -----------\nIndex: %d (Tokens: %d)\nInput: %s\nOutput: %s",
                  min_output_idx, output_token_counts[min_output_idx], inference_batch[min_output_idx], response_batch[min_output_idx])
     return pred_batch, response_batch
 def calculate_accuracy(res):
     """
     Calculate accuracy and return an array of correctness (1 if correct, 0 if wrong)