open_pt_llm_leaderboard

Running on CPU Upgrade

App Files Files Community

eduagarcia commited on Jan 21, 2024

Commit

1b2e131

1 Parent(s): eef299c

show baseline

Browse files

Files changed (2) hide show

src/display/utils.py +7 -7
src/leaderboard/read_evals.py +0 -1

src/display/utils.py CHANGED Viewed

@@ -100,7 +100,7 @@ for task in Tasks:
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
 auto_eval_column_dict.append(["merged", ColumnContent, ColumnContent("Merged", "bool", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
@@ -128,7 +128,7 @@ class EvalQueueColumn:  # Queue column
 baseline_row = {
     AutoEvalColumn.model.name: "<p>Baseline</p>",
     AutoEvalColumn.revision.name: "N/A",
-    AutoEvalColumn.precision.name: None,
     AutoEvalColumn.merged.name: False,
     #AutoEvalColumn.average.name: 31.0,
     #AutoEvalColumn.arc.name: 25.0,
@@ -140,7 +140,7 @@ baseline_row = {
     AutoEvalColumn.dummy.name: "baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
-    AutoEvalColumn.model_type_symbol.name: None,
     AutoEvalColumn.architecture.name: None,
     AutoEvalColumn.weight_type.name: None,
     AutoEvalColumn.params.name: 0,
@@ -152,7 +152,7 @@ baseline_row = {
 baseline_list = []
 for task in Tasks:
-    baseline_row[task.name] = task.value.baseline
     if task.value.baseline is not None:
         baseline_list.append(task.value.baseline)
 baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
@@ -168,7 +168,7 @@ baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(basel
 human_baseline_row = {
     AutoEvalColumn.model.name: "<p>Human performance</p>",
     AutoEvalColumn.revision.name: "N/A",
-    AutoEvalColumn.precision.name: None,
     #AutoEvalColumn.average.name: 92.75,
     AutoEvalColumn.merged.name: False,
     #AutoEvalColumn.arc.name: 80.0,
@@ -180,7 +180,7 @@ human_baseline_row = {
     AutoEvalColumn.dummy.name: "human_baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
-    AutoEvalColumn.model_type_symbol.name: None,
     AutoEvalColumn.architecture.name: None,
     AutoEvalColumn.weight_type.name: None,
     AutoEvalColumn.params.name: 0,
@@ -192,7 +192,7 @@ human_baseline_row = {
 baseline_list = []
 for task in Tasks:
-    human_baseline_row[task.name] = task.value.human_baseline
     if task.value.human_baseline is not None:
         baseline_list.append(task.value.human_baseline)
 human_baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)

 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", True)])
 auto_eval_column_dict.append(["merged", ColumnContent, ColumnContent("Merged", "bool", False)])
 auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
 baseline_row = {
     AutoEvalColumn.model.name: "<p>Baseline</p>",
     AutoEvalColumn.revision.name: "N/A",
+    AutoEvalColumn.precision.name: "?",
     AutoEvalColumn.merged.name: False,
     #AutoEvalColumn.average.name: 31.0,
     #AutoEvalColumn.arc.name: 25.0,
     AutoEvalColumn.dummy.name: "baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
+    AutoEvalColumn.model_type_symbol.name: "?",
     AutoEvalColumn.architecture.name: None,
     AutoEvalColumn.weight_type.name: None,
     AutoEvalColumn.params.name: 0,
 baseline_list = []
 for task in Tasks:
+    baseline_row[task.value.col_name] = task.value.baseline
     if task.value.baseline is not None:
         baseline_list.append(task.value.baseline)
 baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)
 human_baseline_row = {
     AutoEvalColumn.model.name: "<p>Human performance</p>",
     AutoEvalColumn.revision.name: "N/A",
+    AutoEvalColumn.precision.name: "?",
     #AutoEvalColumn.average.name: 92.75,
     AutoEvalColumn.merged.name: False,
     #AutoEvalColumn.arc.name: 80.0,
     AutoEvalColumn.dummy.name: "human_baseline",
     AutoEvalColumn.model_type.name: "",
     AutoEvalColumn.flagged.name: False,
+    AutoEvalColumn.model_type_symbol.name: "?",
     AutoEvalColumn.architecture.name: None,
     AutoEvalColumn.weight_type.name: None,
     AutoEvalColumn.params.name: 0,
 baseline_list = []
 for task in Tasks:
+    human_baseline_row[task.value.col_name] = task.value.human_baseline
     if task.value.human_baseline is not None:
         baseline_list.append(task.value.human_baseline)
 human_baseline_row[AutoEvalColumn.average.name] = round(sum(baseline_list) / len(baseline_list), 2)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -206,7 +206,6 @@ def get_raw_eval_results(results_path: str, requests_path: str, dynamic_path: st
     eval_results = {}
     for model_result_filepath in model_result_filepaths:
         # Creation of result
-        print(model_result_filepath)
         eval_result = EvalResult.init_from_json_file(model_result_filepath)
         eval_result.update_with_request_file(requests_path)
         if eval_result.full_model in dynamic_data:

     eval_results = {}
     for model_result_filepath in model_result_filepaths:
         # Creation of result
         eval_result = EvalResult.init_from_json_file(model_result_filepath)
         eval_result.update_with_request_file(requests_path)
         if eval_result.full_model in dynamic_data: