Spaces:

bethgelab
/

lm-similarity

Running

Joschka Strueber commited on Feb 6

Commit

c24946e

1 Parent(s): 26c0eec

[Fix] removal of not working benchmarks

Files changed (1) hide show

src/dataloading.py CHANGED Viewed

@@ -87,7 +87,7 @@ def get_leaderboard_datasets(model_ids):
         common_datasets = set.intersection(*model_datasets.values())
     # Filter datasets that are not MCQ or currently do not work
-    ignore = ["_bbh_", "_gpqa_", "_math_", "_ifeval_"]
     discard = []
     for dataset in common_datasets:
         for ignore_data in ignore:
@@ -104,7 +104,6 @@ def filter_labels(doc):
         for d in doc:
             labels.append(d["answer_index"])
     else:
-        print("Target:", doc[0]["target"])
         for d in doc:
             if d["target"] == "False":
                 labels.append(0)
@@ -147,6 +146,3 @@ def load_run_data(model_name, dataset_name):
 def load_run_data_cached(model_name, dataset_name):
     return load_run_data(model_name, dataset_name)
-if __name__ == "__main__":
-    get_leaderboard_models_reload()

         common_datasets = set.intersection(*model_datasets.values())
     # Filter datasets that are not MCQ or currently do not work
+    ignore = ["bbh_", "gpqa_", "math_", "ifeval"]
     discard = []
     for dataset in common_datasets:
         for ignore_data in ignore:
         for d in doc:
             labels.append(d["answer_index"])
     else:
         for d in doc:
             if d["target"] == "False":
                 labels.append(0)
 def load_run_data_cached(model_name, dataset_name):
     return load_run_data(model_name, dataset_name)