open-ko-llm-leaderboard-old

Runtime error

App Files Files Community

choco9966 commited on Aug 7, 2024

Commit

07cd8a1

verified ·

1 Parent(s): d3bf055

Update src/leaderboard/read_evals.py

Browse files

Files changed (1) hide show

src/leaderboard/read_evals.py +0 -24

src/leaderboard/read_evals.py CHANGED Viewed

@@ -103,13 +103,6 @@ class EvalResult:
                     results[task.benchmark] = 0.0
                     continue
-            # New tasks have been added, we need to skip them if not exists
-            if task.benchmark in ["ko_winogrande", "ko_gsm8k", "ko_eq_bench", "ko_inst_follow", "kor_nat_cka", "kor_nat_sva", "ko_harmlessness", "ko_helpfulness"]:
-                accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark in k])
-                if accs.size == 0 or any([acc is None for acc in accs]):
-                    results[task.benchmark] = 0.0
-                    continue
             # We average all scores of a given metric (mostly for mmlu)
             accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark in k])
             if accs.size == 0 or any([acc is None for acc in accs]):
@@ -154,23 +147,6 @@ class EvalResult:
         # Skip the new tasks for now
         # TODO: safely remove this code when the task results are all added
         skip_avg_len = 0
-        if self.results['ko_winogrande'] == 0.0:
-            skip_avg_len += 1
-        if self.results['ko_gsm8k'] == 0.0:
-            skip_avg_len += 1
-        if self.results['ko_eq_bench'] == 0.0:
-            skip_avg_len += 1
-        if self.results['ko_inst_follow'] == 0.0:
-            skip_avg_len += 1
-        if self.results['kor_nat_cka'] == 0.0:
-            skip_avg_len += 1
-        if self.results['kor_nat_sva'] == 0.0:
-            skip_avg_len += 1
-        if self.results['ko_harmlessness'] == 0.0:
-            skip_avg_len += 1
-        if self.results['ko_helpfulness'] == 0.0:
-            skip_avg_len += 1
         average = sum([v for v in self.results.values() if v is not None]) / (len(Tasks) - skip_avg_len)
         data_dict = {

                     results[task.benchmark] = 0.0
                     continue
             # We average all scores of a given metric (mostly for mmlu)
             accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark in k])
             if accs.size == 0 or any([acc is None for acc in accs]):
         # Skip the new tasks for now
         # TODO: safely remove this code when the task results are all added
         skip_avg_len = 0
         average = sum([v for v in self.results.values() if v is not None]) / (len(Tasks) - skip_avg_len)
         data_dict = {