Spaces:

ibm-research
/

SMI-TED-demo1

Running

App Files Files Community

Enzo Reis de Oliveira commited on 28 days ago

Commit

073cdd9

1 Parent(s): cbc085f

Better error message for batch

Browse files

Files changed (1) hide show

app.py +49 -22

app.py CHANGED Viewed

@@ -4,14 +4,14 @@ import json
 import pandas as pd
 import gradio as gr
-# 1) Adjust path before importing the loader
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 INFERENCE_PATH = os.path.join(BASE_DIR, "smi-ted", "inference")
 sys.path.insert(0, INFERENCE_PATH)
 from smi_ted_light.load import load_smi_ted
-# 2) Load the SMI-TED Light model
 MODEL_DIR = os.path.join(INFERENCE_PATH, "smi_ted_light")
 model = load_smi_ted(
     folder=MODEL_DIR,
@@ -19,14 +19,15 @@ model = load_smi_ted(
     vocab_filename="bert_vocab_curated.txt",
 )
-# 3) Single function to process either a single SMILES or a CSV of SMILES
 def process_inputs(smiles: str, file_obj):
-    # Se um arquivo CSV for fornecido, processa em batch
     if file_obj is not None:
         try:
             df_in = pd.read_csv(file_obj.name, sep=None, engine='python')
-            smiles_cols = [col for col in df_in.columns if col.lower() == "smiles"]
             if not smiles_cols:
                 return (
                     "Error: The CSV must have a column named 'Smiles' with the respective SMILES.",
@@ -35,42 +36,68 @@ def process_inputs(smiles: str, file_obj):
             smiles_col = smiles_cols[0]
             smiles_list = df_in[smiles_col].astype(str).tolist()
-            if (len(smiles_list) > 100):
-                return (
-                    "Error: The CSV must have up to 100 Smiles.",
-                    gr.update(visible=False),
-                )
-            embeddings = []
             for sm in smiles_list:
-                vec = model.encode(sm, return_torch=True)[0].tolist()
-                embeddings.append(vec)
-            out_df = pd.DataFrame(embeddings)
-            out_df.insert(0, "smiles", smiles_list)
             out_df.to_csv("embeddings.csv", index=False)
-            msg = f"Processed batch of {len(smiles_list)} SMILES. Download embeddings.csv."
             return msg, gr.update(value="embeddings.csv", visible=True)
         except Exception as e:
             return f"Error processing batch: {e}", gr.update(visible=False)
-    # Modo single
     smiles = smiles.strip()
     if not smiles:
         return "Please enter a SMILES or upload a CSV file.", gr.update(visible=False)
     try:
         vec = model.encode(smiles, return_torch=True)[0].tolist()
-        # Salva CSV com header
         cols = ["smiles"] + [f"dim_{i}" for i in range(len(vec))]
         df_out = pd.DataFrame([[smiles] + vec], columns=cols)
         df_out.to_csv("embeddings.csv", index=False)
         return json.dumps(vec), gr.update(value="embeddings.csv", visible=True)
-    except Exception as e:
         return f"The following input '{smiles}' is not a valid SMILES", gr.update(visible=False)
-# 4) Build the Gradio Blocks interface
 with gr.Blocks() as demo:
     gr.Markdown(
         """
@@ -88,7 +115,7 @@ with gr.Blocks() as demo:
     generate_btn = gr.Button("Extract Embeddings")
     with gr.Row():
-        output_msg   = gr.Textbox(label="Message / Embedding (JSON)", interactive=False, lines=2)
         download_csv = gr.File(label="Download embeddings.csv", visible=False)
     generate_btn.click(

 import pandas as pd
 import gradio as gr
+# 1) Ajusta o path antes de importar o loader
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 INFERENCE_PATH = os.path.join(BASE_DIR, "smi-ted", "inference")
 sys.path.insert(0, INFERENCE_PATH)
 from smi_ted_light.load import load_smi_ted
+# 2) Carrega o modelo SMI-TED Light
 MODEL_DIR = os.path.join(INFERENCE_PATH, "smi_ted_light")
 model = load_smi_ted(
     folder=MODEL_DIR,
     vocab_filename="bert_vocab_curated.txt",
 )
 def process_inputs(smiles: str, file_obj):
+    # Modo batch
     if file_obj is not None:
         try:
+            # autodetecta delimitador (; ou , etc)
             df_in = pd.read_csv(file_obj.name, sep=None, engine='python')
+            # procura coluna "smiles" (case‐insensitive)
+            smiles_cols = [c for c in df_in.columns if c.lower() == "smiles"]
             if not smiles_cols:
                 return (
                     "Error: The CSV must have a column named 'Smiles' with the respective SMILES.",
             smiles_col = smiles_cols[0]
             smiles_list = df_in[smiles_col].astype(str).tolist()
+            out_records = []
+            invalid_smiles = []
+            embed_dim = None
+            # para cada SMILES, tenta gerar embedding
             for sm in smiles_list:
+                try:
+                    vec = model.encode(sm, return_torch=True)[0].tolist()
+                    # guarda dimensão do vetor na primeira vez
+                    if embed_dim is None:
+                        embed_dim = len(vec)
+                    # monta registro válido
+                    record = {"smiles": sm}
+                    record.update({f"dim_{i}": v for i, v in enumerate(vec)})
+                except Exception:
+                    # marca como inválido
+                    invalid_smiles.append(sm)
+                    # se já souber quantos dims, preenche com None
+                    if embed_dim is not None:
+                        record = {"smiles": f"SMILES {sm} was invalid"}
+                        record.update({f"dim_{i}": None for i in range(embed_dim)})
+                    else:
+                        # ainda não sabemos quantos dims: só guarda smiles
+                        record = {"smiles": f"SMILES {sm} was invalid"}
+                out_records.append(record)
+            # converte para DataFrame (vai unificar todas as colunas)
+            out_df = pd.DataFrame(out_records)
             out_df.to_csv("embeddings.csv", index=False)
+            # monta mensagem de saída
+            total = len(smiles_list)
+            valid = total - len(invalid_smiles)
+            if invalid_smiles:
+                msg = (
+                    f"{valid} SMILES were successfully processed, "
+                    f"{len(invalid_smiles)} had errors:\n"
+                    + "\n".join(invalid_smiles)
+                )
+            else:
+                msg = f"Processed batch of {valid} SMILES. Download embeddings.csv."
             return msg, gr.update(value="embeddings.csv", visible=True)
         except Exception as e:
             return f"Error processing batch: {e}", gr.update(visible=False)
+    # Modo single (sem mudança)
     smiles = smiles.strip()
     if not smiles:
         return "Please enter a SMILES or upload a CSV file.", gr.update(visible=False)
     try:
         vec = model.encode(smiles, return_torch=True)[0].tolist()
         cols = ["smiles"] + [f"dim_{i}" for i in range(len(vec))]
         df_out = pd.DataFrame([[smiles] + vec], columns=cols)
         df_out.to_csv("embeddings.csv", index=False)
         return json.dumps(vec), gr.update(value="embeddings.csv", visible=True)
+    except Exception:
         return f"The following input '{smiles}' is not a valid SMILES", gr.update(visible=False)
+# 4) Interface Gradio (sem mudanças)
 with gr.Blocks() as demo:
     gr.Markdown(
         """
     generate_btn = gr.Button("Extract Embeddings")
     with gr.Row():
+        output_msg   = gr.Textbox(label="Message / Embedding (JSON)", interactive=False, lines=4)
         download_csv = gr.File(label="Download embeddings.csv", visible=False)
     generate_btn.click(