Spaces:

Kamarov
/

ts_explorer

Sleeping

App Files Files Community

Liu Yiwen commited on Feb 4

Commit

60dbd41

1 Parent(s): 15549a1

更新了处理逻辑

Browse files

Files changed (6) hide show

__pycache__/config.cpython-311.pyc +0 -0
__pycache__/utils.cpython-311.pyc +0 -0
app.py +27 -21
config.py +18 -0
score.json +5 -0
utils.py +12 -1

__pycache__/config.cpython-311.pyc ADDED Viewed

Binary file (751 Bytes). View file

__pycache__/utils.cpython-311.pyc CHANGED Viewed

Binary files a/__pycache__/utils.cpython-311.pyc and b/__pycache__/utils.cpython-311.pyc differ

app.py CHANGED Viewed

@@ -15,8 +15,9 @@ from hffs.fs import HfFileSystem
 from datasets import Features, Image, Audio, Sequence
 from typing import List, Tuple, Callable
-from utils import ndarray_to_base64, clean_up_df, create_statistic, create_plot
 from comm_utils import save_to_file, send_msg_to_server, save_score
 class AppError(RuntimeError):
     pass
@@ -183,12 +184,12 @@ def get_page(dataset: str, config: str, split: str, page: str) -> Tuple[str, int
     df = copy.deepcopy(df_)
     unsupported_columns = []
-    if dataset == 'Salesforce/lotsa_data':
         # 对Salesforce/lotsa_data数据集进行特殊处理
         info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
         return df, max_page, info
-    elif dataset == 'YY26/TS_DATASETS':
         # 对YY26/TS_DATASETS数据集进行特殊处理
         info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
         return df, max_page, info
@@ -242,7 +243,7 @@ def process_salesforce_data(dataset: str, config: str, split: str, page: List[st
 with gr.Blocks() as demo:
     # 初始化组件
     gr.Markdown("A tool for interactive observation of lotsa dataset, extended from lhoestq/datasets-explorer")
-    cp_dataset = gr.Textbox("YY26/TS_DATASETS", label="Pick a dataset", interactive=False)
     cp_go = gr.Button("Explore")
     cp_config = gr.Dropdown(["plain_text"], value="plain_text", label="Config", visible=False)
     cp_split = gr.Dropdown(["train", "validation"], value="train", label="Split", visible=False)
@@ -267,6 +268,7 @@ with gr.Blocks() as demo:
             statistics_textbox = gr.DataFrame()
         with gr.Column(scale=3):
             plot = gr.Plot()
     with gr.Row():
         user_input_box = gr.Textbox(label="question", interactive=False)
         user_output_box = gr.Textbox(label="answer", interactive=False)
@@ -274,7 +276,7 @@ with gr.Blocks() as demo:
     #                   "statistics_textbox": statistics_textbox,
     #                   "user_input_box": user_input_box,
     #                   "plot": plot})
-    score_slider = gr.Slider(1, 5, 1, label="Score for answer", interactive=True)
     with gr.Row():
         with gr.Column(scale=2):
             user_submit_button = gr.Button("submit", interactive=True)
@@ -295,25 +297,28 @@ with gr.Blocks() as demo:
     def show_dataset_at_config_and_split_and_page(dataset: str, config: str, split: str, page: str|List[str], sub_targets: List[int|str]=['all']) -> dict:
         try:
             ret = {}
-            if dataset == 'Salesforce/lotsa_data':
-                # 对Salesforce/lotsa_data数据集进行特殊处理
                 if type(page) == str:
                     page = [page]
                 df_list, id_list = process_salesforce_data(dataset, config, split, page, sub_targets)
                 ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list))
                 ret[plot] = gr.update(value=create_plot(df_list, id_list))
-            elif dataset == 'YY26/TS_DATASETS':
                 df, max_page, info = get_page(dataset, config, split, page)
-                ret[qusetion_id_box] = gr.update(value = df['num'][0])
-                # TODO: 修改lotsa_config的读取逻辑
-                lotsa_config, lotsa_split, lotsa_page = 'traffic_hourly', 'train', eval(df['ts_id'][0])
-                start_index, end_index = df['start_index'][0], df['end_index'][0]
-                # lotsa_subtargets = eval(df['target_id'][0])
-                df_list, id_list = process_salesforce_data('Salesforce/lotsa_data', lotsa_config, lotsa_split, lotsa_page, [1])
-                ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list, interval=[start_index, end_index]))
-                ret[plot] = gr.update(value=create_plot(df_list, id_list, interval=[start_index, end_index]))
-                ret[user_input_box] = gr.update(value=df['question'][0])
-                ret[user_output_box] = gr.update(value=df['answer'][0])
                 ret[submit_info_box] = gr.update(value="")
             else:
                 markdown_result, max_page, info = get_page(dataset, config, split, page)
@@ -385,13 +390,14 @@ with gr.Blocks() as demo:
                    statistics_textbox, plot,
                    qusetion_id_box,
                    user_input_box, user_output_box,
-                   submit_info_box]
     cp_go.click(show_dataset, inputs=[cp_dataset], outputs=all_outputs)
     cp_config.change(show_dataset_at_config, inputs=[cp_dataset, cp_config], outputs=all_outputs)
     cp_split.change(show_dataset_at_config_and_split, inputs=[cp_dataset, cp_config, cp_split], outputs=all_outputs)
     cp_goto_page.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
     cp_goto_next_page.click(show_dataset_at_config_and_split_and_next_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
-    user_submit_button.click(save_score, inputs=["none", qusetion_id_box, score_slider], outputs=[submit_info_box])
     # select_buttom.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, select_sample_box, select_subtarget_box], outputs=all_outputs)
@@ -401,4 +407,4 @@ if __name__ == "__main__":
     host = "127.0.0.1" if os.getenv("DEV") else "0.0.0.0"
     # import subprocess
     # subprocess.Popen(["python", "test_server.py"])
-    uvicorn.run(app, host=host, port=7860)

 from datasets import Features, Image, Audio, Sequence
 from typing import List, Tuple, Callable
+from utils import ndarray_to_base64, clean_up_df, create_statistic, create_plot, get_question_info
 from comm_utils import save_to_file, send_msg_to_server, save_score
+from config import *
 class AppError(RuntimeError):
     pass
     df = copy.deepcopy(df_)
     unsupported_columns = []
+    if dataset == TARGET_DATASET:
         # 对Salesforce/lotsa_data数据集进行特殊处理
         info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
         return df, max_page, info
+    elif dataset == BENCHMARK_DATASET:
         # 对YY26/TS_DATASETS数据集进行特殊处理
         info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
         return df, max_page, info
 with gr.Blocks() as demo:
     # 初始化组件
     gr.Markdown("A tool for interactive observation of lotsa dataset, extended from lhoestq/datasets-explorer")
+    cp_dataset = gr.Textbox(BENCHMARK_DATASET, label="Pick a dataset", interactive=False)
     cp_go = gr.Button("Explore")
     cp_config = gr.Dropdown(["plain_text"], value="plain_text", label="Config", visible=False)
     cp_split = gr.Dropdown(["train", "validation"], value="train", label="Split", visible=False)
             statistics_textbox = gr.DataFrame()
         with gr.Column(scale=3):
             plot = gr.Plot()
+    question_info_textbox = gr.DataFrame()
     with gr.Row():
         user_input_box = gr.Textbox(label="question", interactive=False)
         user_output_box = gr.Textbox(label="answer", interactive=False)
     #                   "statistics_textbox": statistics_textbox,
     #                   "user_input_box": user_input_box,
     #                   "plot": plot})
+    score_slider = gr.Slider(1, 5, 1, step=0.5, label="Score for answer", interactive=True)
     with gr.Row():
         with gr.Column(scale=2):
             user_submit_button = gr.Button("submit", interactive=True)
     def show_dataset_at_config_and_split_and_page(dataset: str, config: str, split: str, page: str|List[str], sub_targets: List[int|str]=['all']) -> dict:
         try:
             ret = {}
+            if dataset == TARGET_DATASET:
                 if type(page) == str:
                     page = [page]
                 df_list, id_list = process_salesforce_data(dataset, config, split, page, sub_targets)
                 ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list))
                 ret[plot] = gr.update(value=create_plot(df_list, id_list))
+            elif dataset == BENCHMARK_DATASET:
                 df, max_page, info = get_page(dataset, config, split, page)
+                question_info = get_question_info(df)
+                ret[qusetion_id_box] = gr.update(value = df[COLUMN_ID][0])
+                lotsa_config, lotsa_split, lotsa_page = str(df[COLUMN_SOURCE][0]).split('/')[-1], 'train', eval(df[COLUMN_TS_ID][0])
+                start_index, end_index = df[COLUMN_START_INDEX][0], df[COLUMN_END_INDEX][0]
+                interval = None if np.isnan(start_index) or np.isnan(end_index) else [start_index, end_index]
+                lotsa_subtargets = eval(df[COLUMN_TARGET_ID][0])
+                df_list, id_list = process_salesforce_data(TARGET_DATASET, lotsa_config, lotsa_split, lotsa_page, lotsa_subtargets)
+                ret[question_info_textbox] = gr.update(value=question_info)
+                ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list, interval=interval))
+                ret[plot] = gr.update(value=create_plot(df_list, id_list, interval=interval))
+                ret[user_input_box] = gr.update(value=df[COLUMN_QUESTION][0])
+                ret[user_output_box] = gr.update(value=df[COLUMN_ANSWER][0])
                 ret[submit_info_box] = gr.update(value="")
             else:
                 markdown_result, max_page, info = get_page(dataset, config, split, page)
                    statistics_textbox, plot,
                    qusetion_id_box,
                    user_input_box, user_output_box,
+                   submit_info_box,
+                   question_info_textbox]
     cp_go.click(show_dataset, inputs=[cp_dataset], outputs=all_outputs)
     cp_config.change(show_dataset_at_config, inputs=[cp_dataset, cp_config], outputs=all_outputs)
     cp_split.change(show_dataset_at_config_and_split, inputs=[cp_dataset, cp_config, cp_split], outputs=all_outputs)
     cp_goto_page.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
     cp_goto_next_page.click(show_dataset_at_config_and_split_and_next_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
+    user_submit_button.click(save_score, inputs=[score_slider, qusetion_id_box, score_slider], outputs=[submit_info_box])
     # select_buttom.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, select_sample_box, select_subtarget_box], outputs=all_outputs)
     host = "127.0.0.1" if os.getenv("DEV") else "0.0.0.0"
     # import subprocess
     # subprocess.Popen(["python", "test_server.py"])
+    # uvicorn.run(app, host=host, port=7860)

config.py ADDED Viewed

	@@ -0,0 +1,18 @@

+BENCHMARK_DATASET  = 'YY26/TS_benchmark'
+TARGET_DATASET     = 'Salesforce/lotsa_data'
+# columns
+COLUMN_ID          = 'id'
+COLUMN_TS_ID       = 'ts_id'
+COLUMN_TARGET_ID   = 'target_id'
+COLUMN_START_INDEX = 'start_index'
+COLUMN_END_INDEX   = 'end_index'
+COLUMN_QA_TYPE     = 'qa_type'
+COLUMN_TASK_TYPE   = 'task_type'
+COLUMN_QUESTION    = 'question'
+COLUMN_OPTION      = 'option'
+COLUMN_ANSWER      = 'answer'
+COLUMN_DOMAIN      = 'domain'
+COLUMN_SOURCE      = 'source'
+COLUMN_LOCAL_OVERALL = 'local_overall'
+COLUMN_OPTIONS     = 'options'

score.json CHANGED Viewed

@@ -23,5 +23,10 @@
         "user_id": 2.86,
         "question_id": "2",
         "score": 2.86
     }
 ]

         "user_id": 2.86,
         "question_id": "2",
         "score": 2.86
+    },
+    {
+        "user_id": 3,
+        "question_id": "1",
+        "score": 3
     }
 ]

utils.py CHANGED Viewed

@@ -10,6 +10,8 @@ import pandas as pd
 import plotly.graph_objects as go
 import numpy as np
 def ndarray_to_base64(ndarray):
     """
@@ -66,7 +68,8 @@ def create_plot(dfs:list[pd.DataFrame], ids:list[str], interval:list[int, int]=N
                 y=df[column],
                 mode='lines',
                 name=f"item_{df_id} - {column}",
-                visible=True if i == 0 else 'legendonly'
             ))
     # 配置图例
@@ -135,6 +138,14 @@ def clean_up_df(df: pd.DataFrame, rows_to_include: list[int]) -> pd.DataFrame:
         df.drop(columns=['past_feat_dynamic_real'], inplace=True)
     return df
 if __name__ == '__main__':
     # 创建测试数据

 import plotly.graph_objects as go
 import numpy as np
+from config import *
 def ndarray_to_base64(ndarray):
     """
                 y=df[column],
                 mode='lines',
                 name=f"item_{df_id} - {column}",
+                # visible=True if i == 0 else 'legendonly'
+                visible=True
             ))
     # 配置图例
         df.drop(columns=['past_feat_dynamic_real'], inplace=True)
     return df
+def get_question_info(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    从数据集中提取问题信息。
+    """
+    question_info = df[[COLUMN_DOMAIN, COLUMN_SOURCE, COLUMN_QA_TYPE, COLUMN_TASK_TYPE]]
+    question_info = question_info.drop_duplicates()
+    return question_info
 if __name__ == '__main__':
     # 创建测试数据