Spaces:

m42-health
/

MEDIC-Benchmark

Restarting

tathagataraha commited on Nov 12, 2024

Commit

34c150d

1 Parent(s): d86ca68

[FIX] handled cases where one of the results are not present

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -77,19 +77,19 @@ class EvalResult:
         # Extract results available in this file (some results are split in several files)
         harness_results = {}
-        for task in HarnessTasks:
-            task = task.value
-            # We average all scores of a given metric (not all metrics are present in all files)
-            try:
-                accs = np.array([v.get(task.metric, None) for k, v in data["results"]["closed-ended"].items() if task.benchmark == k])
-            except:
-                breakpoint()
-            if accs.size == 0 or any([acc is None for acc in accs]):
-                continue
-            mean_acc = np.mean(accs)  # * 100.0
-            harness_results[task.benchmark] = mean_acc
         # types_results = {}
         # for clinical_type in ClinicalTypes:
         #     clinical_type = clinical_type.value
@@ -168,9 +168,9 @@ class EvalResult:
                 AutoEvalColumn.date.name: self.date,
                 "display_result" : self.display_result,
             }
-            for task in HarnessTasks:
-                data_dict[task.value.col_name] = self.dataset_results[task.value.benchmark]
             return data_dict
@@ -261,5 +261,5 @@ def get_raw_eval_results(results_path: str, requests_path: str, evaluation_metri
             results.append(v)
         except KeyError:  # not all eval values present
             continue
     return results

         # Extract results available in this file (some results are split in several files)
         harness_results = {}
+        if "closed-ended" in data["results"]:
+            for task in HarnessTasks:
+                task = task.value
+                # We average all scores of a given metric (not all metrics are present in all files)
+                try:
+                    accs = np.array([v.get(task.metric, None) for k, v in data["results"]["closed-ended"].items() if task.benchmark == k])
+                except:
+                    # breakpoint()
+                    accs = np.array([])
+                if accs.size == 0 or any([acc is None for acc in accs]):
+                    continue
+                mean_acc = np.mean(accs)  # * 100.0
+                harness_results[task.benchmark] = mean_acc
         # types_results = {}
         # for clinical_type in ClinicalTypes:
         #     clinical_type = clinical_type.value
                 AutoEvalColumn.date.name: self.date,
                 "display_result" : self.display_result,
             }
+            if len(self.dataset_results) > 0:
+                for task in HarnessTasks:
+                    data_dict[task.value.col_name] = self.dataset_results[task.value.benchmark]
             return data_dict
             results.append(v)
         except KeyError:  # not all eval values present
             continue
+    # breakpoint()
     return results