Spaces:

Kamarov
/

ts_explorer

Sleeping

App Files Files Community

Liu Yiwen commited on Jan 26

Commit

f3718f0

0 Parent(s):

initial commit

Browse files

Files changed (11) hide show

.gitattributes +35 -0
README.md +21 -0
__pycache__/comm_utils.cpython-311.pyc +0 -0
__pycache__/utils.cpython-311.pyc +0 -0
app.py +393 -0
comm_utils.py +25 -0
gitattributes +34 -0
requirements.txt +14 -0
test_server.py +17 -0
user_input.txt +1 -0
utils.py +157 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+title: Lotsa Explorer
+emoji: 📈
+colorFrom: indigo
+colorTo: blue
+sdk: gradio
+sdk_version: 4.36.0
+app_file: app.py
+pinned: false
+short_description: A tool for interactive observation of lotsa dataset
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+This project is modified based on the project https://huggingface.co/spaces/lhoestq/datasets-explorer
+Run:
+```python
+gradio app.py
+```

__pycache__/comm_utils.cpython-311.pyc ADDED Viewed

Binary file (1.49 kB). View file

__pycache__/utils.cpython-311.pyc ADDED Viewed

Binary file (8.64 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,393 @@

+import copy
+import os
+import time
+from functools import lru_cache, partial
+import gradio as gr
+import numpy as np
+import pandas as pd
+import pyarrow as pa
+import pyarrow.parquet as pq
+from tqdm.contrib.concurrent import thread_map
+from fastapi import FastAPI, Response
+import uvicorn
+from hffs.fs import HfFileSystem
+from datasets import Features, Image, Audio, Sequence
+from typing import List, Tuple, Callable
+from utils import ndarray_to_base64, clean_up_df, create_statistic, create_plot
+from comm_utils import save_to_file, send_msg_to_server
+class AppError(RuntimeError):
+    pass
+APP_URL = "http://127.0.0.1:7860" if os.getenv("DEV") else "https://Kamarov-lotsa-explorer.hf.space"
+PAGE_SIZE = 1
+MAX_CACHED_BLOBS = PAGE_SIZE * 10
+TIME_PLOTS_NUM = 1
+_blobs_cache = {}
+#####################################################
+# Define routes for image and audio files
+#####################################################
+app = FastAPI()
+@app.get(
+    "/image",
+    responses={200: {"content": {"image/png": {}}}},
+    response_class=Response,
+)
+def image(id: str):
+    blob = get_blob(id)
+    return Response(content=blob, media_type="image/png")
+@app.get(
+    "/audio",
+    responses={200: {"content": {"audio/wav": {}}}},
+    response_class=Response,
+)
+def audio(id: str):
+    blob = get_blob(id)
+    return Response(content=blob, media_type="audio/wav")
+def push_blob(blob: bytes, blob_id: str) -> str:
+    global _blobs_cache
+    if blob_id in _blobs_cache:
+        del _blobs_cache[blob_id]
+    _blobs_cache[blob_id] = blob
+    if len(_blobs_cache) > MAX_CACHED_BLOBS:
+        del _blobs_cache[next(iter(_blobs_cache))]
+    return blob_id
+def get_blob(blob_id: str) -> bytes:
+    global _blobs_cache
+    return _blobs_cache[blob_id]
+def blobs_to_urls(blobs: List[bytes], type: str, prefix: str) -> List[str]:
+    image_blob_ids = [push_blob(blob, f"{prefix}-{i}") for i, blob in enumerate(blobs)]
+    return [APP_URL + f"/{type}?id={blob_id}" for blob_id in image_blob_ids]
+#####################################################
+# List configs, splits and parquet files
+#####################################################
+@lru_cache(maxsize=128)
+def get_parquet_fs(dataset: str) -> HfFileSystem:
+    try:
+        fs = HfFileSystem(dataset, repo_type="dataset", revision="refs/convert/parquet")
+        if any(fs.isfile(path) for path in fs.ls("") if not path.startswith(".")):
+            raise AppError(f"Parquet export doesn't exist for '{dataset}'.")
+        return fs
+    except:
+        raise AppError(f"Parquet export doesn't exist for '{dataset}'.")
+@lru_cache(maxsize=128)
+def get_parquet_configs(dataset: str) -> List[str]:
+    fs = get_parquet_fs(dataset)
+    return [path for path in fs.ls("") if fs.isdir(path)]
+def _sorted_split_key(split: str) -> str:
+    return split if not split.startswith("train") else chr(0) + split  # always "train" first
+@lru_cache(maxsize=128)
+def get_parquet_splits(dataset: str, config: str) -> List[str]:
+    fs = get_parquet_fs(dataset)
+    return [path.split("/")[1] for path in fs.ls(config) if fs.isdir(path)]
+#####################################################
+# Index and query Parquet data
+#####################################################
+RowGroupReaders = List[Callable[[], pa.Table]]
+@lru_cache(maxsize=128)
+def index(dataset: str, config: str, split: str) -> Tuple[np.ndarray, RowGroupReaders, int, Features]:
+    fs = get_parquet_fs(dataset)
+    sources = fs.glob(f"{config}/{split}/*.parquet")
+    if not sources:
+        if config not in get_parquet_configs(dataset):
+            raise AppError(f"Invalid config {config}. Available configs are: {', '.join(get_parquet_configs(dataset))}.")
+        else:
+            raise AppError(f"Invalid split {split}. Available splits are: {', '.join(get_parquet_splits(dataset, config))}.")
+    desc = f"{dataset}/{config}/{split}"
+    all_pf: List[pq.ParquetFile] = thread_map(partial(pq.ParquetFile, filesystem=fs), sources, desc=desc, unit="pq")
+    features = Features.from_arrow_schema(all_pf[0].schema.to_arrow_schema())
+    rg_offsets = np.cumsum([pf.metadata.row_group(i).num_rows for pf in all_pf for i in range(pf.metadata.num_row_groups)])
+    rg_readers = [partial(pf.read_row_group, i) for pf in all_pf for i in range(pf.metadata.num_row_groups)]
+    max_page = 1 + (rg_offsets[-1] - 1) // PAGE_SIZE
+    return rg_offsets, rg_readers, max_page, features
+def query(page: int, page_size: int, rg_offsets: np.ndarray, rg_readers: RowGroupReaders) -> pd.DataFrame:
+    start_row, end_row = (page - 1) * page_size, min(page * page_size, rg_offsets[-1] - 1) # both included
+    # rg_offsets[start_rg - 1] <= start_row < rg_offsets[start_rg]
+    # rg_offsets[end_rg - 1]   <=  end_row  < rg_offsets[end_rg]
+    start_rg, end_rg = np.searchsorted(rg_offsets, [start_row, end_row], side="right") # both included
+    t = time.time()
+    # TODO:性能瓶颈
+    pa_table = pa.concat_tables([rg_readers[i]() for i in range(start_rg, end_rg + 1)])
+    print(f"concat_tables time: {time.time()-t}")
+    offset = start_row - (rg_offsets[start_rg - 1] if start_rg > 0 else 0)
+    pa_table = pa_table.slice(offset, page_size)
+    return pa_table.to_pandas()
+def sanitize_inputs(dataset: str, config: str, split: str, page:  str) -> Tuple[str, str, str, int]:
+    try:
+        page = int(page)
+        assert page > 0
+    except:
+        raise AppError(f"Bad page: {page}")
+    if not dataset:
+        raise AppError("Empty dataset name")
+    if not config:
+        raise AppError(f"Empty config. Available configs are: {', '.join(get_parquet_configs(dataset))}.")
+    if not split:
+        raise AppError(f"Empty split. Available splits are: {', '.join(get_parquet_splits(dataset, config))}.")
+    return dataset, config, split, int(page)
+@lru_cache(maxsize=128)
+def get_page_df(dataset: str, config: str, split: str, page: str) -> Tuple[pd.DataFrame, int, Features]:
+    dataset, config, split, page = sanitize_inputs(dataset, config, split, page)
+    rg_offsets, rg_readers, max_page, features = index(dataset, config, split)
+    if page > max_page:
+        raise AppError(f"Page {page} does not exist")
+    df = query(page, PAGE_SIZE, rg_offsets=rg_offsets, rg_readers=rg_readers)
+    return df, max_page, features
+#####################################################
+# Format results
+#####################################################
+def get_page(dataset: str, config: str, split: str, page: str) -> Tuple[str, int, str]:
+    df_, max_page, features = get_page_df(dataset, config, split, page)
+    df = copy.deepcopy(df_)
+    unsupported_columns = []
+    if dataset == 'Salesforce/lotsa_data':
+        # 对Salesforce/lotsa_data数据集进行特殊处理
+        info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
+        return df, max_page, info
+    elif dataset == 'YY26/TS_DATASETS':
+        # 对YY26/TS_DATASETS数据集进行特殊处理
+        info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
+        return df, max_page, info
+    else:
+        # 其他数据集保留原有逻辑
+        for column, feature in features.items():
+            if isinstance(feature, Image):
+                blob_type = "image"  # TODO: support audio - right now it seems that the markdown renderer in gradio doesn't support audio and shows nothing
+                blob_urls = blobs_to_urls([item.get("bytes") if isinstance(item, dict) else None for item in df[column]], blob_type, prefix=f"{dataset}-{config}-{split}-{page}-{column}")
+                df = df.drop([column], axis=1)
+                df[column] = [f"![]({url})" for url in blob_urls]
+            elif any(bad_type in str(feature) for bad_type in ["Image(", "Audio(", "'binary'"]):
+                unsupported_columns.append(column)
+                df = df.drop([column], axis=1)
+            elif isinstance(feature, Sequence):
+                if feature.feature.dtype == 'float32':
+                    # 直接将内容绘图，并嵌入为Base64编码
+                    base64_srcs = [ndarray_to_base64(vec) for vec in df[column]]
+                    df = df.drop([column], axis=1)
+                    df[column] = [f"![]({src})" for src in base64_srcs]
+        info = "" if not unsupported_columns else f"Some columns are not supported yet: {unsupported_columns}"
+        return df.reset_index().to_markdown(index=False), max_page, info
+#####################################################
+# Process data
+#####################################################
+def process_salesforce_data(dataset: str, config: str, split: str, page: List[str], sub_targets: List[int|str]) -> Tuple[List[pd.DataFrame], List[str]]:
+    df_list, id_list = [], []
+    for i, page in enumerate(page):
+        df, max_page, info = get_page(dataset, config, split, page)
+        global tot_samples, tot_targets
+        tot_samples, tot_targets = max_page, len(df['target'][0]) if isinstance(df['target'][0], np.ndarray) and df['target'][0].dtype == 'O' else 1
+        if 'all' in sub_targets:
+            sub_targets = [i for i in range(tot_targets)]
+        df = clean_up_df(df, sub_targets)
+        row = df.iloc[0]
+        id_list.append(row['item_id'])
+        # 将单行的DataFrame展开为新的DataFrame
+        df_without_index = row.drop('item_id').to_frame().T
+        df_expanded = df_without_index.apply(pd.Series.explode).reset_index(drop=True).fillna(0)
+        df_list.append(df_expanded)
+    return df_list, id_list
+#####################################################
+# Gradio app
+#####################################################
+with gr.Blocks() as demo:
+    # 初始化组件
+    gr.Markdown("A tool for interactive observation of lotsa dataset, extended from lhoestq/datasets-explorer")
+    cp_dataset = gr.Textbox("YY26/TS_DATASETS", label="Pick a dataset", interactive=False)
+    cp_go = gr.Button("Explore")
+    cp_config = gr.Dropdown(["plain_text"], value="plain_text", label="Config", visible=False)
+    cp_split = gr.Dropdown(["train", "validation"], value="train", label="Split", visible=False)
+    cp_goto_next_page = gr.Button("Next page", visible=False)
+    cp_error = gr.Markdown("", visible=False)
+    cp_info = gr.Markdown("", visible=False)
+    cp_result = gr.Markdown("", visible=False)
+    tot_samples = 0
+    # 初始化Salesforce/lotsa_data数据集展示使用的组件
+    # componets = []
+    # for _ in range(TIME_PLOTS_NUM):
+    # with gr.Row():
+    #     with gr.Column(scale=2):
+    #         select_sample_box = gr.Dropdown(choices=["items"], label="Select some items", multiselect=True, interactive=True)
+    #     with gr.Column(scale=2):
+    #         select_subtarget_box = gr.Dropdown(choices=["subtargets"], label="Select some subtargets", multiselect=True, interactive=True)
+    #     with gr.Column(scale=1):
+    #         select_buttom = gr.Button("Show selected items")
+    with gr.Row():
+        with gr.Column(scale=2):
+            statistics_textbox = gr.DataFrame()
+        with gr.Column(scale=3):
+            plot = gr.Plot()
+    with gr.Row():
+        user_input_box = gr.Textbox(placeholder="输入一些内容", label="输入", lines=5, interactive=True)
+        user_output_box = gr.Textbox(label="回答", lines=5, interactive=False)
+    user_io_buttom = gr.Button("发送", interactive=True)
+    # componets.append({"select_sample_box": select_sample_box,
+    #                   "statistics_textbox": statistics_textbox,
+    #                   "user_input_box": user_input_box,
+    #                   "plot": plot})
+    with gr.Row():
+        cp_page = gr.Textbox("1", label="Page", placeholder="1", visible=False)
+        cp_goto_page = gr.Button("Go to page", visible=False)
+    def show_error(message: str) -> dict:
+        return {
+            cp_error: gr.update(visible=True, value=f"## ❌ Error:\n\n{message}"),
+            cp_info: gr.update(visible=False, value=""),
+            cp_result: gr.update(visible=False, value=""),
+        }
+    def show_dataset_at_config_and_split_and_page(dataset: str, config: str, split: str, page: str|List[str], sub_targets: List[int|str]=['all']) -> dict:
+        try:
+            ret = {}
+            if dataset == 'Salesforce/lotsa_data':
+                # 对Salesforce/lotsa_data数据集进行特殊处理
+                if type(page) == str:
+                    page = [page]
+                df_list, id_list = process_salesforce_data(dataset, config, split, page, sub_targets)
+                ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list))
+                ret[plot] = gr.update(value=create_plot(df_list, id_list))
+            elif dataset == 'YY26/TS_DATASETS':
+                df, max_page, info = get_page(dataset, config, split, page)
+                lotsa_config, lotsa_split, lotsa_page = 'traffic_hourly', 'train', eval(df['ts_id'][0])
+                # lotsa_subtargets = eval(df['target_id'][0])
+                df_list, id_list = process_salesforce_data('Salesforce/lotsa_data', lotsa_config, lotsa_split, lotsa_page, [1])
+                ret[statistics_textbox] = gr.update(value=create_statistic(df_list, id_list))
+                ret[plot] = gr.update(value=create_plot(df_list, id_list))
+                ret[user_input_box] = gr.update(value=df['question'][0])
+                ret[user_output_box] = gr.update(value=df['answer'][0])
+            else:
+                markdown_result, max_page, info = get_page(dataset, config, split, page)
+                ret[cp_result] = gr.update(visible=True, value=markdown_result)
+            return {
+                **ret,
+                cp_info: gr.update(visible=True, value=f"Page {page}/{max_page} {info}"),
+                cp_error: gr.update(visible=False, value="")
+            }
+        except AppError as err:
+            return show_error(str(err))
+    def show_dataset_at_config_and_split_and_next_page(dataset: str, config: str, split: str, page: str) -> dict:
+        try:
+            next_page = str(int(page) + 1)
+            return {
+                **show_dataset_at_config_and_split_and_page(dataset, config, split, next_page),
+                cp_page: gr.update(value=next_page, visible=True),
+            }
+        except AppError as err:
+            return show_error(str(err))
+    def show_dataset_at_config_and_split(dataset: str, config: str, split: str) -> dict:
+        try:
+            return {
+                **show_dataset_at_config_and_split_and_page(dataset, config, split, "1", [0]),
+                # select_sample_box: gr.update(choices=[f"{i+1}" for i in range(tot_samples)], value=["1"]),
+                # select_subtarget_box: gr.update(choices=[i for i in range(tot_targets)]+['all'], value=[0]),
+                cp_page: gr.update(value="1", visible=True),
+                cp_goto_page: gr.update(visible=True),
+                cp_goto_next_page: gr.update(visible=True),
+            }
+        except AppError as err:
+            return show_error(str(err))
+    def show_dataset_at_config(dataset: str, config: str) -> dict:
+        try:
+            splits = get_parquet_splits(dataset, config)
+            if not splits:
+                raise AppError(f"Dataset {dataset} with config {config} has no splits.")
+            else:
+                split = splits[0]
+            return {
+                **show_dataset_at_config_and_split(dataset, config, split),
+                cp_split: gr.update(value=split, choices=splits, visible=len(splits) > 1),
+            }
+        except AppError as err:
+            return show_error(str(err))
+    def show_dataset(dataset: str) -> dict:
+        try:
+            configs = get_parquet_configs(dataset)
+            if not configs:
+                raise AppError(f"Dataset {dataset} has no configs.")
+            else:
+                config = configs[0]
+            return {
+                **show_dataset_at_config(dataset, config),
+                cp_config: gr.update(value=config, choices=configs, visible=len(configs) > 1),
+            }
+        except AppError as err:
+            return show_error(str(err))
+    all_outputs = [cp_config, cp_split,
+                   cp_page, cp_goto_page, cp_goto_next_page,
+                   cp_result, cp_info, cp_error,
+                #    select_sample_box, select_subtarget_box,
+                #    select_buttom,
+                   statistics_textbox, plot,
+                   user_input_box, user_output_box]
+    cp_go.click(show_dataset, inputs=[cp_dataset], outputs=all_outputs)
+    cp_config.change(show_dataset_at_config, inputs=[cp_dataset, cp_config], outputs=all_outputs)
+    cp_split.change(show_dataset_at_config_and_split, inputs=[cp_dataset, cp_config, cp_split], outputs=all_outputs)
+    cp_goto_page.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
+    cp_goto_next_page.click(show_dataset_at_config_and_split_and_next_page, inputs=[cp_dataset, cp_config, cp_split, cp_page], outputs=all_outputs)
+    user_io_buttom.click(send_msg_to_server, inputs=[user_input_box], outputs=[user_output_box])
+    # select_buttom.click(show_dataset_at_config_and_split_and_page, inputs=[cp_dataset, cp_config, cp_split, select_sample_box, select_subtarget_box], outputs=all_outputs)
+if __name__ == "__main__":
+    app = gr.mount_gradio_app(app, demo, path="/")
+    host = "127.0.0.1" if os.getenv("DEV") else "0.0.0.0"
+    # import subprocess
+    # subprocess.Popen(["python", "test_server.py"])
+    uvicorn.run(app, host=host, port=7860)

comm_utils.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import requests
+API_URL = "http://127.0.0.1:5000/api/process"
+def save_to_file(user_input):
+    with open("user_input.txt", "w") as file:
+        file.write(user_input)
+def send_msg_to_server(input_text):
+    try:
+        # 构造请求数据
+        payload = {"text": input_text}
+        headers = {"Content-Type": "application/json"}
+        # 发送请求
+        response = requests.post(API_URL, json=payload, headers=headers)
+        response.raise_for_status()  # 检查是否请求成功
+        # 返回响应结果
+        result = response.json()  # 假设服务器返回的是 JSON 格式
+        return result.get("processed_text", "No result returned.")
+    except requests.RequestException as e:
+        return f"请求失败：{e}"

gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

requirements.txt ADDED Viewed

	@@ -0,0 +1,14 @@

+datasets==3.2.0
+fastapi==0.115.6
+git+https://github.com/huggingface/hffs.git@63298cde9f994a0ab16c3ba89c5f7a9d140f20b2
+matplotlib==3.8.4
+numpy==2.2.2
+pandas==2.2.3
+plotly==5.22.0
+pyarrow==19.0.0
+tqdm==4.67.1
+uvicorn==0.34.0
+fsspec[http]
+tqdm
+tabulate
+flask==3.0.3

test_server.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import time
+from flask import Flask, request, jsonify
+app = Flask(__name__)
+@app.route('/api/process', methods=['POST'])
+def process_text():
+    data = request.get_json()
+    input_text = data.get("text", "")
+    time.sleep(1)
+    processed_text = f"{input_text[::-1]}"
+    return jsonify({"processed_text": processed_text})
+if __name__ == "__main__":
+    app.run(host="127.0.0.1", port=5000)

user_input.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ 1234

utils.py ADDED Viewed

	@@ -0,0 +1,157 @@

+#####################################################
+# Utils
+#####################################################
+# 本文件包含了一些用于数据处理和绘图的实用函数。
+import base64
+from io import BytesIO
+from matplotlib import pyplot as plt
+import pandas as pd
+import plotly.graph_objects as go
+import numpy as np
+def ndarray_to_base64(ndarray):
+    """
+    将一维np.ndarray绘图并转换为Base64编码。
+    """
+    # 创建绘图
+    plt.figure(figsize=(8, 4))
+    plt.plot(ndarray)
+    plt.title("Vector Plot")
+    plt.xlabel("Index")
+    plt.ylabel("Value")
+    plt.tight_layout()
+    # 保存图像到内存字节流
+    buffer = BytesIO()
+    plt.savefig(buffer, format="png")
+    plt.close()
+    buffer.seek(0)
+    # 转换为Base64字符串
+    base64_str = base64.b64encode(buffer.getvalue()).decode('utf-8')
+    return f"data:image/png;base64,{base64_str}"
+def flatten_ndarray_column(df, column_name, rows_to_include):
+    """
+    将嵌套的np.ndarray列展平为多列，并只保留指定的行。
+    """
+    def select_and_flatten(ndarray):
+        if isinstance(ndarray, np.ndarray) and ndarray.dtype == 'O':
+            selected = [ndarray[i] for i in rows_to_include if i < len(ndarray)]
+            return np.concatenate([select_and_flatten(subarray) for subarray in selected])
+        elif isinstance(ndarray, np.ndarray) and ndarray.ndim == 1:
+            return np.expand_dims(ndarray, axis=0)
+        return ndarray
+    selected_data = df[column_name].apply(select_and_flatten)
+    for i, index in enumerate(rows_to_include):
+        df[f'{column_name}_{index}'] = selected_data.apply(lambda x: x[i])
+    return df
+def create_plot(dfs:list[pd.DataFrame], ids:list[str]):
+    """
+    创建一个包含所有传入 DataFrame 的线图。
+    """
+    fig = go.Figure()
+    for df, df_id in zip(dfs, ids):
+        for i, column in enumerate(df.columns[1:]):
+            fig.add_trace(go.Scatter(
+                x=df[df.columns[0]],
+                y=df[column],
+                mode='lines',
+                name=f"item_{df_id} - {column}",
+                visible=True if i == 0 else 'legendonly'
+            ))
+    # 配置图例
+    fig.update_layout(
+        legend=dict(
+            title="Variables",
+            orientation="h",
+            yanchor="top",
+            y=-0.2,
+            xanchor="center",
+            x=0.5
+        ),
+        xaxis_title='Time',
+        yaxis_title='Values'
+    )
+    return fig
+def create_statistic(dfs: list[pd.DataFrame], ids: list[str]):
+    """
+    计算数据集列表的统计信息。
+    """
+    stats_list = []
+    for df, id in zip(dfs, ids):
+        df_values = df.iloc[:, 1:]
+        # 计算统计值
+        mean_values = df_values.mean().round(2)
+        std_values = df_values.std().round(2)
+        max_values = df_values.max().round(2)
+        min_values = df_values.min().round(2)
+        # 将这些统计信息合并成一个新的DataFrame
+        stats_df = pd.DataFrame({
+            'Variables': [f"{id}_{col}" for col in df_values.columns],
+            'mean': mean_values.values,
+            'std': std_values.values,
+            'max': max_values.values,
+            'min': min_values.values
+        })
+        stats_list.append(stats_df)
+    # 合并所有统计信息DataFrame
+    combined_stats_df = pd.concat(stats_list, ignore_index=True)
+    return combined_stats_df
+def clean_up_df(df: pd.DataFrame, rows_to_include: list[int]) -> pd.DataFrame:
+    """
+    清理数据集，将嵌套的np.ndarray列展平为多列。
+    """
+    rows_to_include = sorted(rows_to_include)
+    df['timestamp'] = df.apply(lambda row: pd.date_range(
+        start=row['start'],
+        periods=len(row['target'][0]) if isinstance(row['target'][0], np.ndarray) else len(row['target']),
+        freq=row['freq']
+    ).to_pydatetime().tolist(), axis=1)
+    df = flatten_ndarray_column(df, 'target', rows_to_include)
+    # 删除原始的start和freq列
+    df.drop(columns=['start', 'freq', 'target'], inplace=True)
+    if 'past_feat_dynamic_real' in df.columns:
+        df.drop(columns=['past_feat_dynamic_real'], inplace=True)
+    return df
+if __name__ == '__main__':
+    # 创建测试数据
+    data1 = {
+        'Time': ['2023-01-01', '2023-01-02', '2023-01-03'],
+        'Value1': [10, 15, 20],
+        'Value2': [20, 25, 30]
+    }
+    data2 = {
+        'Time': ['2023-01-01', '2023-01-02', '2023-01-03'],
+        'Value3': [5, 10, 15],
+        'Value4': [15, 20, 25]
+    }
+    df1 = pd.DataFrame(data1)
+    df2 = pd.DataFrame(data2)
+    # 转换时间列为日期时间格式
+    df1['Time'] = pd.to_datetime(df1['Time'])
+    df2['Time'] = pd.to_datetime(df2['Time'])
+    # 创建图表
+    fig = create_plot(df1, df2)
+    # 显示图表
+    fig.show()