H2H-eval-comparator

Sleeping

rohansampath commited on Feb 18

Commit

599b7a0

verified ·

1 Parent(s): 35b0ff2

Update mmlu_pro_eval_adapted.py

Files changed (1) hide show

mmlu_pro_eval_adapted.py CHANGED Viewed

@@ -4,6 +4,7 @@ import json
 import argparse
 import os
 import torch
 import random
 import transformers
 import time
@@ -192,6 +193,7 @@ def eval_cot(subject, model, tokenizer, val_df, test_df, num_shots=5):
     return correctness, accuracy
 def evaluate_mmlu_pro(model_name, num_subjects=-1, num_questions=10, num_shots=5):
     model, tokenizer = load_model(model_name, gpu_utilization=0.8)

 import argparse
 import os
 import torch
+import spaces
 import random
 import transformers
 import time
     return correctness, accuracy
+@spaces.GPU(duration=240)  # Extended to 3 minutes for larger evaluations
 def evaluate_mmlu_pro(model_name, num_subjects=-1, num_questions=10, num_shots=5):
     model, tokenizer = load_model(model_name, gpu_utilization=0.8)