Spaces:

broadfield-dev
/

Embedding-Atlas

Sleeping

App Files Files Community

broadfield-dev commited on 13 days ago

Commit

cd69d2a

verified ·

1 Parent(s): 98fe021

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -10

app.py CHANGED Viewed

@@ -45,7 +45,8 @@ def get_dataset_splits(dataset_id: str):
     if not dataset_id:
         return gr.update(choices=[], value=None, interactive=False)
     try:
-        splits = get_dataset_split_names(dataset_id, trust_remote_code=True)
         return gr.update(choices=splits, value=splits[0] if splits else None, interactive=True)
     except Exception as e:
         gr.Warning(f"Could not fetch splits for dataset '{dataset_id}'. Error: {e}")
@@ -56,16 +57,12 @@ def get_split_columns(dataset_id: str):
     if not dataset_id:
         return gr.update(choices=[], value=None, interactive=False)
     try:
-        # --- THIS IS THE ROBUST FIX ---
-        # Use get_dataset_config_info to get schema without loading data.
-        # This is the official and most reliable way.
-        info = get_dataset_config_info(dataset_id, trust_remote_code=True)
         features = info.features
-        # The user is right, we should show ALL columns.
         columns = list(features.keys())
-        # We can still be helpful by guessing the best default.
         preferred_cols = ['text', 'content', 'instruction', 'question', 'document', 'prompt']
         best_col = next((col for col in preferred_cols if col in columns), columns[0] if columns else None)
@@ -93,6 +90,8 @@ def generate_atlas(
     progress(0, desc=f"Loading dataset '{dataset_name}' [{split}]...")
     try:
         dataset = load_dataset(dataset_name, split=split, trust_remote_code=True)
         df = dataset.to_pandas()
     except Exception as e:
@@ -170,10 +169,7 @@ with gr.Blocks(theme=gr.themes.Soft(), title="Embedding Atlas Explorer") as app:
     # --- Chained Event Listeners for Dynamic UI ---
     hf_user_input.submit(fn=get_user_datasets, inputs=hf_user_input, outputs=dataset_input)
-    # When a dataset is selected, get its splits.
     dataset_input.change(fn=get_dataset_splits, inputs=dataset_input, outputs=split_input)
-    # When a dataset is selected, ALSO get its columns. The split doesn't matter for column schema.
     dataset_input.change(fn=get_split_columns, inputs=dataset_input, outputs=text_column_input)
     # --- Button Click Event ---

     if not dataset_id:
         return gr.update(choices=[], value=None, interactive=False)
     try:
+        # --- FIX: Removed trust_remote_code=True ---
+        splits = get_dataset_split_names(dataset_id)
         return gr.update(choices=splits, value=splits[0] if splits else None, interactive=True)
     except Exception as e:
         gr.Warning(f"Could not fetch splits for dataset '{dataset_id}'. Error: {e}")
     if not dataset_id:
         return gr.update(choices=[], value=None, interactive=False)
     try:
+        # --- FIX: Removed trust_remote_code=True ---
+        info = get_dataset_config_info(dataset_id)
         features = info.features
         columns = list(features.keys())
         preferred_cols = ['text', 'content', 'instruction', 'question', 'document', 'prompt']
         best_col = next((col for col in preferred_cols if col in columns), columns[0] if columns else None)
     progress(0, desc=f"Loading dataset '{dataset_name}' [{split}]...")
     try:
+        # Here, trust_remote_code can be useful if the dataset actually needs it.
+        # It's less likely to crash here than in the metadata functions.
         dataset = load_dataset(dataset_name, split=split, trust_remote_code=True)
         df = dataset.to_pandas()
     except Exception as e:
     # --- Chained Event Listeners for Dynamic UI ---
     hf_user_input.submit(fn=get_user_datasets, inputs=hf_user_input, outputs=dataset_input)
     dataset_input.change(fn=get_dataset_splits, inputs=dataset_input, outputs=split_input)
     dataset_input.change(fn=get_split_columns, inputs=dataset_input, outputs=text_column_input)
     # --- Button Click Event ---