eval-leaderboard

Running

App Files Files Community

xeon27 commited on Jan 27

Commit

aa87c61

1 Parent(s): 37ebe4e

Remove commented code

Browse files

Files changed (4) hide show

app.py +1 -125
src/display/utils.py +1 -13
src/leaderboard/read_evals.py +0 -13
src/populate.py +0 -6

app.py CHANGED Viewed

@@ -62,36 +62,8 @@ AGENTIC_LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PAT
 def init_leaderboard(dataframe, benchmark_type):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     AutoEvalColumnSubset = [c for c in fields(AutoEvalColumn) if ((c.name=="Model") or (TASK_NAME_INVERSE_MAP.get(c.name, dict()).get("type", "")==benchmark_type))]
-    # return Leaderboard(
-    #     value=dataframe,
-    #     datatype=[c.type for c in AutoEvalColumnSubset],
-    #     select_columns=SelectColumns(
-    #         default_selection=[c.name for c in AutoEvalColumnSubset if c.displayed_by_default],
-    #         cant_deselect=[c.name for c in AutoEvalColumnSubset if c.never_hidden],
-    #         label="Select Columns to Display:",
-    #     ),
-    #     # # search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
-    #     search_columns=[AutoEvalColumn.model.name,],
-    #     hide_columns=[c.name for c in AutoEvalColumnSubset if c.hidden],
-    #     # filter_columns=[
-    #     #     ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
-    #     #     ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-    #     #     ColumnFilter(
-    #     #         AutoEvalColumn.params.name,
-    #     #         type="slider",
-    #     #         min=0.01,
-    #     #         max=150,
-    #     #         label="Select the number of parameters (B)",
-    #     #     ),
-    #     #     ColumnFilter(
-    #     #         AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=False
-    #     #     ),
-    #     # ],
-    #     filter_columns=[],
-    #     bool_checkboxgroup_label="Hide models",
-    #     interactive=False,
-    # )
     return gr.components.Dataframe(
         value=dataframe,
@@ -115,102 +87,6 @@ with demo:
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
-    #     with gr.TabItem("🚀 Submit here! ", elem_id="llm-benchmark-tab-table", id=3):
-    #         with gr.Column():
-    #             with gr.Row():
-    #                 gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
-    #             with gr.Column():
-    #                 with gr.Accordion(
-    #                     f"✅ Finished Evaluations ({len(finished_eval_queue_df)})",
-    #                     open=False,
-    #                 ):
-    #                     with gr.Row():
-    #                         finished_eval_table = gr.components.Dataframe(
-    #                             value=finished_eval_queue_df,
-    #                             headers=EVAL_COLS,
-    #                             datatype=EVAL_TYPES,
-    #                             row_count=5,
-    #                         )
-    #                 with gr.Accordion(
-    #                     f"🔄 Running Evaluation Queue ({len(running_eval_queue_df)})",
-    #                     open=False,
-    #                 ):
-    #                     with gr.Row():
-    #                         running_eval_table = gr.components.Dataframe(
-    #                             value=running_eval_queue_df,
-    #                             headers=EVAL_COLS,
-    #                             datatype=EVAL_TYPES,
-    #                             row_count=5,
-    #                         )
-    #                 with gr.Accordion(
-    #                     f"⏳ Pending Evaluation Queue ({len(pending_eval_queue_df)})",
-    #                     open=False,
-    #                 ):
-    #                     with gr.Row():
-    #                         pending_eval_table = gr.components.Dataframe(
-    #                             value=pending_eval_queue_df,
-    #                             headers=EVAL_COLS,
-    #                             datatype=EVAL_TYPES,
-    #                             row_count=5,
-    #                         )
-    #         with gr.Row():
-    #             gr.Markdown("# ✉️✨ Submit your model here!", elem_classes="markdown-text")
-    #         with gr.Row():
-    #             with gr.Column():
-    #                 model_name_textbox = gr.Textbox(label="Model name")
-    #                 revision_name_textbox = gr.Textbox(label="Revision commit", placeholder="main")
-    #                 model_type = gr.Dropdown(
-    #                     choices=[t.to_str(" : ") for t in ModelType if t != ModelType.Unknown],
-    #                     label="Model type",
-    #                     multiselect=False,
-    #                     value=None,
-    #                     interactive=True,
-    #                 )
-    #             with gr.Column():
-    #                 precision = gr.Dropdown(
-    #                     choices=[i.value.name for i in Precision if i != Precision.Unknown],
-    #                     label="Precision",
-    #                     multiselect=False,
-    #                     value="float16",
-    #                     interactive=True,
-    #                 )
-    #                 weight_type = gr.Dropdown(
-    #                     choices=[i.value.name for i in WeightType],
-    #                     label="Weights type",
-    #                     multiselect=False,
-    #                     value="Original",
-    #                     interactive=True,
-    #                 )
-    #                 base_model_name_textbox = gr.Textbox(label="Base model (for delta or adapter weights)")
-    #         submit_button = gr.Button("Submit Eval")
-    #         submission_result = gr.Markdown()
-    #         submit_button.click(
-    #             add_new_eval,
-    #             [
-    #                 model_name_textbox,
-    #                 base_model_name_textbox,
-    #                 revision_name_textbox,
-    #                 precision,
-    #                 weight_type,
-    #                 model_type,
-    #             ],
-    #             submission_result,
-    #         )
-    # with gr.Row():
-    #     with gr.Accordion("📙 Citation", open=False):
-    #         citation_button = gr.Textbox(
-    #             value=CITATION_BUTTON_TEXT,
-    #             label=CITATION_BUTTON_LABEL,
-    #             lines=20,
-    #             elem_id="citation-button",
-    #             show_copy_button=True,
-    #         )
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

 def init_leaderboard(dataframe, benchmark_type):
     if dataframe is None or dataframe.empty:
         raise ValueError("Leaderboard DataFrame is empty or None.")
     AutoEvalColumnSubset = [c for c in fields(AutoEvalColumn) if ((c.name=="Model") or (TASK_NAME_INVERSE_MAP.get(c.name, dict()).get("type", "")==benchmark_type))]
     return gr.components.Dataframe(
         value=dataframe,
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

src/display/utils.py CHANGED Viewed

@@ -23,22 +23,10 @@ class ColumnContent:
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
-# auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-#Scores
-# auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "markdown", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "markdown", True)])
-# # Model information
-# auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-# auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-# auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-# auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-# auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-# auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-# auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-# auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-# auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
+# Scores
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "markdown", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -113,21 +113,9 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        # average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
-            # AutoEvalColumn.precision.name: self.precision.value.name,
-            # AutoEvalColumn.model_type.name: self.model_type.value.name,
-            # AutoEvalColumn.model_type_symbol.name: self.model_type.value.symbol,
-            # AutoEvalColumn.weight_type.name: self.weight_type.value.name,
-            # AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
-            # AutoEvalColumn.revision.name: self.revision,
-            # AutoEvalColumn.average.name: average,
-            # AutoEvalColumn.license.name: self.license,
-            # AutoEvalColumn.likes.name: self.likes,
-            # AutoEvalColumn.params.name: self.num_params,
-            # AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
@@ -185,7 +173,6 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
         # Store results of same eval together
         eval_name = eval_result.eval_name
         if eval_name in eval_results.keys():
-            # eval_results[eval_name].results.update({k: v for k, v in eval_result.results.items() if v is not None})
             eval_results[eval_name].results.update(eval_result.results)
         else:
             eval_results[eval_name] = eval_result

     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
         }
         for task in Tasks:
         # Store results of same eval together
         eval_name = eval_result.eval_name
         if eval_name in eval_results.keys():
             eval_results[eval_name].results.update(eval_result.results)
         else:
             eval_results[eval_name] = eval_result

src/populate.py CHANGED Viewed

@@ -41,23 +41,17 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = pd.DataFrame.from_records(all_data_json)
-    # df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # subset for model and benchmark cols
     df = df[[AutoEvalColumn.model.name] + benchmark_cols]
-    # # filter out if any of the benchmarks have not been produced
-    # df = df[has_no_nan_values(df, benchmark_cols)]
     df = df.fillna(EMPTY_SYMBOL)
     # make values clickable and link to log files
     for col in benchmark_cols:
         df[col] = df[[AutoEvalColumn.model.name, col]].apply(lambda x: f"[{x[col]}]({get_inspect_log_url(model_name=x[AutoEvalColumn.model.name].split('>')[1].split('<')[0], benchmark_name=TASK_NAME_INVERSE_MAP[col]['name'])})" if x[col] != EMPTY_SYMBOL else x[col], axis=1)
-    # # make task names clickable and link to inspect-evals repository - this creates issues later
-    # df = df.rename(columns={col: f"[{col}]({TASK_NAME_INVERSE_MAP[col]['source']})" for col in benchmark_cols})
     return df

     df = pd.DataFrame.from_records(all_data_json)
     df = df[cols].round(decimals=2)
     # subset for model and benchmark cols
     df = df[[AutoEvalColumn.model.name] + benchmark_cols]
     df = df.fillna(EMPTY_SYMBOL)
     # make values clickable and link to log files
     for col in benchmark_cols:
         df[col] = df[[AutoEvalColumn.model.name, col]].apply(lambda x: f"[{x[col]}]({get_inspect_log_url(model_name=x[AutoEvalColumn.model.name].split('>')[1].split('<')[0], benchmark_name=TASK_NAME_INVERSE_MAP[col]['name'])})" if x[col] != EMPTY_SYMBOL else x[col], axis=1)
     return df