Spaces:

simone-papicchio
/

qatch-demo

Sleeping

App Files Files Community

franceth commited on Apr 11

Commit

746cc2a

verified ·

1 Parent(s): 327ecdf

TQA task bugs fix

Browse files

Files changed (1) hide show

app.py +15 -19

app.py CHANGED Viewed

@@ -782,7 +782,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                                                         <div style='font-size: 3rem'>➡️</div>
                                                     </div>
                                                 """
-                            yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(display_question), gr.Markdown(), metrics_conc, *[predictions_dict[model]for model in model_list]
                             #samples = us.generate_some_samples(input_data["data_path"], row["tbl_name"])
                             model_to_send = None if not flag_TQA else model
@@ -805,12 +805,14 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                             else: task="SP"
                             start_time = time.time()
                             response = predictor.make_prediction(
-                                question=question,
-                                db_schema=db_schema_text,
-                                model_name=model,
-                                prompt=f"{prompt_to_send}",
-                                task=task
                             )
                             end_time = time.time()
                             prediction = response['response_parsed']
                             price = response['cost']
@@ -853,7 +855,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                                 predictions_dict[model] = pd.concat([predictions_dict[model], new_row], ignore_index=True)
                             # yield gr.Textbox(), gr.Textbox(prediction), *[predictions_dict[model] for model in input_data["models"]], None
-                            yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(), gr.Markdown(display_prediction), metrics_conc, *[predictions_dict[model]for model in model_list]
                     yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(), gr.Markdown(display_prediction), metrics_conc, *[predictions_dict[model] for model in model_list]
                     # END
                 eval_text = generate_eval_text("Evaluation")
@@ -874,16 +876,16 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                     metrics_df_model['model'] = model
                     metrics_conc = pd.concat([metrics_conc, metrics_df_model], ignore_index=True)
                 if 'valid_efficency_score' not in metrics_conc.columns:
                     metrics_conc['valid_efficency_score'] = metrics_conc['VES']
                 if 'VES' not in metrics_conc.columns:
                     metrics_conc['VES'] = metrics_conc['valid_efficency_score']
-                if 'VES' not in metrics_conc.columns and 'valid_efficency_score' not in metrics_conc.columns:
-                    metrics_conc['VES'] = 0
-                    metrics_conc['valid_efficency_score'] = 0
                 eval_text = generate_eval_text("End evaluation")
                 yield gr.Markdown(eval_text, visible=True), gr.Image(), gr.Markdown(), gr.Markdown(), gr.Markdown(), metrics_conc, *[predictions_dict[model] for model in model_list]
@@ -1004,7 +1006,6 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
             ]
         )
     ##########################################
     #     METRICS VISUALIZATION SECTION      #
     ##########################################
@@ -1796,12 +1797,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                 df = calculate_average_metrics(df, selected_metrics)
                 if flag_TQA:
-                    df["target_answer"] = df["target_answer"].apply(
-                        lambda x: " - ".join([",".join(map(str, item)) for item in x]) if isinstance(x, list) else str(x)
-                    )
-                    df["predicted_answer"] = df["predicted_answer"].apply(
-                        lambda x: " - ".join([",".join(map(str, item)) for item in x]) if isinstance(x, list) else str(x)
-                    )
                     worst_cases_df = df.groupby(['model', 'tbl_name', 'test_category', 'question', 'target_answer', 'predicted_answer', 'answer', 'sql_tag'])['avg_metric'].mean().reset_index()
                 else:
@@ -1824,7 +1820,7 @@ with gr.Blocks(theme='shivi/calm_seafoam', css_paths='style.css', js=js_func) as
                             f"<span style='font-size:18px;'><b>{medals[i]} {row['model']} - {row['tbl_name']} - {row['test_category']} - {row['sql_tag']}</b> ({row['avg_metric']})</span>  \n"
                             f"<span style='font-size:16px;'>- <b>Question:</b> {row['question']}</span>  \n"
                             f"<span style='font-size:16px;'>- <b>Original Answer:</b> `{row['target_answer']}`</span>  \n"
-                            f"<span style='font-size:16px;'>- <b>Predicted Answer:</b> `{row['predicted_answer']}`</span>  \n\n"
                         )
                         worst_str.append(entry)

                                                         <div style='font-size: 3rem'>➡️</div>
                                                     </div>
                                                 """
+                            yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(display_question), gr.Markdown(), metrics_conc, *[predictions_dict[model] for model in model_list]
                             #samples = us.generate_some_samples(input_data["data_path"], row["tbl_name"])
                             model_to_send = None if not flag_TQA else model
                             else: task="SP"
                             start_time = time.time()
                             response = predictor.make_prediction(
+                                 question=question,
+                                 db_schema=db_schema_text,
+                                 model_name=model,
+                                 prompt=f"{prompt_to_send}",
+                                 task=task
                             )
+                            #if flag_TQA: response = {'response_parsed': "[['Alice'],['Bob'],['Charlie']]", 'cost': 0, 'response': "[['Alice'],['Bob'],['Charlie']]"} # TODO remove this line
+                            #else : response = {'response_parsed': "SELECT * FROM 'MyTable'", 'cost': 0, 'response': "SQL_QUERY"}
                             end_time = time.time()
                             prediction = response['response_parsed']
                             price = response['cost']
                                 predictions_dict[model] = pd.concat([predictions_dict[model], new_row], ignore_index=True)
                             # yield gr.Textbox(), gr.Textbox(prediction), *[predictions_dict[model] for model in input_data["models"]], None
+                            yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(), gr.Markdown(display_prediction), metrics_conc, *[predictions_dict[model] for model in model_list]
                     yield gr.Markdown(), gr.Image(), gr.Markdown(load_text), gr.Markdown(), gr.Markdown(display_prediction), metrics_conc, *[predictions_dict[model] for model in model_list]
                     # END
                 eval_text = generate_eval_text("Evaluation")
                     metrics_df_model['model'] = model
                     metrics_conc = pd.concat([metrics_conc, metrics_df_model], ignore_index=True)
+                if 'VES' not in metrics_conc.columns and 'valid_efficency_score' not in metrics_conc.columns:
+                    metrics_conc['VES'] = 0
+                    metrics_conc['valid_efficency_score'] = 0
                 if 'valid_efficency_score' not in metrics_conc.columns:
                     metrics_conc['valid_efficency_score'] = metrics_conc['VES']
                 if 'VES' not in metrics_conc.columns:
                     metrics_conc['VES'] = metrics_conc['valid_efficency_score']
                 eval_text = generate_eval_text("End evaluation")
                 yield gr.Markdown(eval_text, visible=True), gr.Image(), gr.Markdown(), gr.Markdown(), gr.Markdown(), metrics_conc, *[predictions_dict[model] for model in model_list]
             ]
         )
     ##########################################
     #     METRICS VISUALIZATION SECTION      #
     ##########################################
                 df = calculate_average_metrics(df, selected_metrics)
                 if flag_TQA:
+                    df["target_answer"] = df["target_answer"] = df["target_answer"].apply(lambda x: "[" + ", ".join(map(str, x)) + "]")
                     worst_cases_df = df.groupby(['model', 'tbl_name', 'test_category', 'question', 'target_answer', 'predicted_answer', 'answer', 'sql_tag'])['avg_metric'].mean().reset_index()
                 else:
                             f"<span style='font-size:18px;'><b>{medals[i]} {row['model']} - {row['tbl_name']} - {row['test_category']} - {row['sql_tag']}</b> ({row['avg_metric']})</span>  \n"
                             f"<span style='font-size:16px;'>- <b>Question:</b> {row['question']}</span>  \n"
                             f"<span style='font-size:16px;'>- <b>Original Answer:</b> `{row['target_answer']}`</span>  \n"
+                            f"<span style='font-size:16px;'>- <b>Predicted Answer:</b> `{eval(row['predicted_answer'])}`</span>  \n\n"
                         )
                         worst_str.append(entry)