Spaces:

simone-papicchio
/

qatch-demo

Running

App Files Files Community

Beaver added

#20

by franceth - opened Apr 8

base: refs/heads/main

←

from: refs/pr/20

Discussion Files changed

+124709

-30

Files changed (3) hide show

app.py +31 -30
concatenated_output.csv +0 -0
tables_dict_beaver.pkl +3 -0

app.py CHANGED Viewed

@@ -28,7 +28,9 @@ import utilities as us
 #             def wrapper(*args, **kwargs):
 #                 return func(*args, **kwargs)
 #             return wrapper
-pnp_path = "evaluation_p_np_metrics.csv"
 js_func = """
 function refresh() {
@@ -57,8 +59,11 @@ models_path ="models.csv"
 df_current = df_default.copy()
 description = """## 📊 Comparison of Proprietary and Non-Proprietary Databases
-                    ### ➤ **Proprietary** (💰 Economic, 🏥 Medical, 💳 Financial, 📂 Miscellaneous)
-                    ### ➤ **Non-Proprietary** (🕷️ Spider 1.0)"""
 prompt_default = "Translate the following question in SQL code to be executed over the database to fetch the answer.\nReturn the sql code in ```sql ```\nQuestion\n{question}\nDatabase Schema\n{db_schema}\n"
 input_data = {
@@ -134,7 +139,7 @@ def load_data(file, path, use_default):
             #input_data["data_path"] = os.path.join(".", "data", "spider_databases", "defeault.sqlite")
             #input_data["db_name"] = "default"
             #input_data["data"]['db'] =  SqliteConnector(relative_db_path=input_data["data_path"], db_name=input_data["db_name"])
-            input_data["data"]['data_frames'] = us.load_tables_dict_from_pkl('tables_dict.pkl')
             return input_data["data"]['data_frames']
     selected_inputs = sum([file is not None, bool(path), use_default])
@@ -324,18 +329,23 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                 available_tables = []
                 for name, df in data.items():
                     df_real = data_frames.get(name, None)
-                    if df_real is not None and df_real.shape[1] > 15:
-                        excluded_tables.append(name)
                     else:
                         available_tables.append(name)
-                if input_data['input_method'] == "default" or len(available_tables) < 6:
                     table_names.append("All")
                 table_names.extend(available_tables)
-                # Prepara il testo da mostrare
-                if excluded_tables:
                     excluded_text = "<b>⚠️ The following tables have more than 15 columns and cannot be selected:</b><br>" + "<br>".join(f"- {t}" for t in excluded_tables)
                     excluded_visible = True
                 else:
@@ -359,7 +369,10 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
             available_tables = []
             for name, df in data.items():
                 df_real = data_frames.get(name)
-                if df_real is not None and df_real.shape[1] <= 15:
                     available_tables.append(name)
             input_method = input_data['input_method']
@@ -413,6 +426,8 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                 available_tables = list(data.keys())  # Actually available names
                 if "All" in selected_tables:
                     selected_tables = available_tables
                 input_data['data']['selected_tables'] = selected_tables
                 return gr.update(value=", ".join(selected_tables), visible=False)
             return gr.update(value="", visible=False)
@@ -827,14 +842,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
         with gr.Tabs() as model_tabs:
             tab_dict = {}
-            # for model, model_name in zip(model_list, model_names):
-            #     with gr.TabItem(model_name, visible=(model in input_data["models"])) as tab:
-            #         gr.Markdown(f"**Results for {model_name}**")
-            #         tab_dict[model] = tab
-            #         dataframe_per_model[model] = gr.DataFrame()
-            #model_mapping = dict(zip(model_list, model_names))
-            #model_mapping_reverse = dict(zip(model_names, model_list))
             for model, model_name in zip(model_list, model_names):
                 with gr.TabItem(model_name, visible=(model in input_data["models"])) as tab:
                     gr.Markdown(f"**Results for {model}**")
@@ -842,7 +850,6 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                     dataframe_per_model[model] = gr.DataFrame()
                     # download_pred_model = gr.DownloadButton(label="Download Prediction per Model", visible=False)
         evaluation_loading = gr.Markdown()
         def change_tab():
@@ -890,11 +897,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
             fn=lambda: gr.update(visible=False),
             outputs=[download_metrics]
         )
-        #TODO WHY?
-        # download_metrics.click(
-        #     fn=lambda: gr.update(open=True, visible=True),
-        #     outputs=[download_metrics]
-        # )
         def refresh():
             global reset_flag
             reset_flag = True
@@ -941,12 +944,12 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
             ####################################
             def load_data_csv_es():
-                #return pd.read_csv(data_path)
-                #print("---------------->",metrics_df_out)
                 if input_data["input_method"]=="default":
                     df = pd.read_csv(pnp_path)
                     df = df[df['model'].isin(input_data["models"])]
                     df['model'] = df['model'].replace('DeepSeek-R1-Distill-Llama-70B', 'DS-Llama3 70B')
                     df['model'] = df['model'].replace('gpt-3.5', 'GPT-3.5')
                     df['model'] = df['model'].replace('gpt-4o-mini', 'GPT-4o-mini')
@@ -1150,7 +1153,6 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                 avg_metrics = df.groupby(["db_category", "model"])['avg_metric'].mean().reset_index()
                 avg_metrics['text_label'] = avg_metrics['avg_metric'].apply(lambda x: f'{x:.2f}')
-                #MIAO
                 fig = px.bar(
                     avg_metrics,
                     x='db_category',
@@ -1277,14 +1279,13 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                 df = load_data_csv_es()
                 return plot_metric_propietary(df, radio_metric, qatch_selected_metrics, external_selected_metric, selected_models)
                         # BAR CHART FOR PROPIETARY DATASET WITH AVERAGE METRICS WITH UPDATE FUNCTION
             def lollipop_propietary(selected_models):
                 df = load_data_csv_es()
                 # Filtra solo le categorie rilevanti
-                target_cats = ["Spider", "Economic", "Financial", "Medical", "Miscellaneous"]
                 df = df[df['db_category'].isin(target_cats)]
                 df = df[df['model'].isin(selected_models)]

 #             def wrapper(*args, **kwargs):
 #                 return func(*args, **kwargs)
 #             return wrapper
+#pnp_path = os.path.join("data", "evaluation_p_np_metrics.csv")
+pnp_path = "concatenated_output.csv"
+PATH_PKL_TABLES = 'tables_dict_beaver.pkl'
 js_func = """
 function refresh() {
 df_current = df_default.copy()
 description = """## 📊 Comparison of Proprietary and Non-Proprietary Databases
+                    ### ➤ **Proprietary** :
+                    ###  &ensp;&ensp;&ensp;           ⇒ Economic 💰, Medical 🏥, Financial 💳, Miscellaneous 📂
+                    ###  &ensp;&ensp;&ensp;           ⇒ BEAVER (FAC BUILDING ADDRESS 🏢 , TIME QUARTER ⏱️)
+                    ### ➤ **Non-Proprietary**
+                    ###  &ensp;&ensp;&ensp;           ⇒ Spider 1.0 🕷️"""
 prompt_default = "Translate the following question in SQL code to be executed over the database to fetch the answer.\nReturn the sql code in ```sql ```\nQuestion\n{question}\nDatabase Schema\n{db_schema}\n"
 input_data = {
             #input_data["data_path"] = os.path.join(".", "data", "spider_databases", "defeault.sqlite")
             #input_data["db_name"] = "default"
             #input_data["data"]['db'] =  SqliteConnector(relative_db_path=input_data["data_path"], db_name=input_data["db_name"])
+            input_data["data"]['data_frames'] = us.load_tables_dict_from_pkl(PATH_PKL_TABLES)
             return input_data["data"]['data_frames']
     selected_inputs = sum([file is not None, bool(path), use_default])
                 available_tables = []
                 for name, df in data.items():
                     df_real = data_frames.get(name, None)
+                    if input_data['input_method'] != "default":
+                        if df_real is not None and df_real.shape[1] > 15:
+                            excluded_tables.append(name)
+                        else:
+                            available_tables.append(name)
                     else:
                         available_tables.append(name)
+                if input_data['input_method'] == "default":
+                    table_names.append("All")
+                    excluded_tables = []
+                elif  len(available_tables) < 6:
                     table_names.append("All")
                 table_names.extend(available_tables)
+                if excluded_tables and input_data['input_method'] != "default" :
                     excluded_text = "<b>⚠️ The following tables have more than 15 columns and cannot be selected:</b><br>" + "<br>".join(f"- {t}" for t in excluded_tables)
                     excluded_visible = True
                 else:
             available_tables = []
             for name, df in data.items():
                 df_real = data_frames.get(name)
+                if input_data['input_method'] != "default" :
+                    if df_real is not None and df_real.shape[1] <= 15:
+                        available_tables.append(name)
+                else:
                     available_tables.append(name)
             input_method = input_data['input_method']
                 available_tables = list(data.keys())  # Actually available names
                 if "All" in selected_tables:
                     selected_tables = available_tables
+                    if (input_data['input_method'] != "default") : selected_tables = [t for t in selected_tables if len(data[t].columns) <= 15]
                 input_data['data']['selected_tables'] = selected_tables
                 return gr.update(value=", ".join(selected_tables), visible=False)
             return gr.update(value="", visible=False)
         with gr.Tabs() as model_tabs:
             tab_dict = {}
             for model, model_name in zip(model_list, model_names):
                 with gr.TabItem(model_name, visible=(model in input_data["models"])) as tab:
                     gr.Markdown(f"**Results for {model}**")
                     dataframe_per_model[model] = gr.DataFrame()
                     # download_pred_model = gr.DownloadButton(label="Download Prediction per Model", visible=False)
         evaluation_loading = gr.Markdown()
         def change_tab():
             fn=lambda: gr.update(visible=False),
             outputs=[download_metrics]
         )
         def refresh():
             global reset_flag
             reset_flag = True
             ####################################
             def load_data_csv_es():
                 if input_data["input_method"]=="default":
                     df = pd.read_csv(pnp_path)
                     df = df[df['model'].isin(input_data["models"])]
+                    df = df[df['tbl_name'].isin(input_data["data"]["selected_tables"])]
                     df['model'] = df['model'].replace('DeepSeek-R1-Distill-Llama-70B', 'DS-Llama3 70B')
                     df['model'] = df['model'].replace('gpt-3.5', 'GPT-3.5')
                     df['model'] = df['model'].replace('gpt-4o-mini', 'GPT-4o-mini')
                 avg_metrics = df.groupby(["db_category", "model"])['avg_metric'].mean().reset_index()
                 avg_metrics['text_label'] = avg_metrics['avg_metric'].apply(lambda x: f'{x:.2f}')
                 fig = px.bar(
                     avg_metrics,
                     x='db_category',
                 df = load_data_csv_es()
                 return plot_metric_propietary(df, radio_metric, qatch_selected_metrics, external_selected_metric, selected_models)
                         # BAR CHART FOR PROPIETARY DATASET WITH AVERAGE METRICS WITH UPDATE FUNCTION
             def lollipop_propietary(selected_models):
                 df = load_data_csv_es()
                 # Filtra solo le categorie rilevanti
+                target_cats = ["Spider", "Economic", "Financial", "Medical", "Miscellaneous", "Beaver"]
                 df = df[df['db_category'].isin(target_cats)]
                 df = df[df['model'].isin(selected_models)]

concatenated_output.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

tables_dict_beaver.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e4fb82cd8b2e985ab794f114d826283bc46a2e3df212d46ccf880ca32b44402
+size 25681