Spaces:

ibm-research
/

SMI-TED-demo1

Running

App Files Files Community

Enzo Reis de Oliveira commited on 17 days ago

Commit

5465560

1 Parent(s): 214fccd

Putting everything in english

Browse files

Files changed (1) hide show

app.py +21 -21

app.py CHANGED Viewed

@@ -4,14 +4,14 @@ import json
 import pandas as pd
 import gradio as gr
-# 1) Ajusta o path antes de importar o loader
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 INFERENCE_PATH = os.path.join(BASE_DIR, "smi-ted", "inference")
 sys.path.insert(0, INFERENCE_PATH)
 from smi_ted_light.load import load_smi_ted
-# 2) Carrega o modelo
 MODEL_DIR = os.path.join(INFERENCE_PATH, "smi_ted_light")
 model = load_smi_ted(
     folder=MODEL_DIR,
@@ -19,9 +19,9 @@ model = load_smi_ted(
     vocab_filename="bert_vocab_curated.txt",
 )
-# 3) Função única para processar SMILES simples ou CSV de SMILES
 def process_inputs(smiles: str, file_obj):
-    # Se vier um arquivo CSV, processa em batch
     if file_obj is not None:
         try:
             df_in = pd.read_csv(file_obj.name)
@@ -30,51 +30,51 @@ def process_inputs(smiles: str, file_obj):
             for sm in smiles_list:
                 vec = model.encode(sm, return_torch=True)[0].tolist()
                 embeddings.append(vec)
-            # Monta DataFrame de saída
             out_df = pd.DataFrame(embeddings)
             out_df.insert(0, "smiles", smiles_list)
             out_df.to_csv("embeddings.csv", index=False)
-            msg = f"Batch de {len(smiles_list)} SMILES processado. Baixe em embeddings.csv."
             return msg, gr.update(value="embeddings.csv", visible=True)
         except Exception as e:
-            return f"Erro no batch: {e}", gr.update(visible=False)
-    # Senão, processa SMILES único
     smiles = smiles.strip()
     if not smiles:
-        return "Digite um SMILES ou envie um arquivo CSV.", gr.update(visible=False)
     try:
         vec = model.encode(smiles, return_torch=True)[0].tolist()
-        # Salva CSV com cabeçalho
         cols = ["smiles"] + [f"dim_{i}" for i in range(len(vec))]
         df_out = pd.DataFrame([[smiles] + vec], columns=cols)
         df_out.to_csv("embeddings.csv", index=False)
         return json.dumps(vec), gr.update(value="embeddings.csv", visible=True)
     except Exception as e:
-        return f"Erro ao gerar embedding: {e}", gr.update(visible=False)
-# 4) Monta interface Blocks
 with gr.Blocks() as demo:
     gr.Markdown(
         """
         # SMI-TED Embedding Generator
-        **Modo único:** cole um SMILES na caixa à esquerda.
-        **Modo batch:** faça upload de um CSV com várias linhas de SMILES (eles devem estar na primeira coluna).
-        Em ambos os casos, será gerado um arquivo `embeddings.csv` para download, com a primeira coluna de SMILES e o embedding nas colunas seguintes.
         """
     )
     with gr.Row():
-        smiles_in = gr.Textbox(label="SMILES (modo único)", placeholder="Ex.: CCO")
-        file_in   = gr.File(label="CSV de SMILES (modo batch)", file_types=[".csv"])
-    gerar_btn = gr.Button("Gerar Embeddings")
     with gr.Row():
-        output_msg  = gr.Textbox(label="Resposta/Embedding (JSON)", interactive=False, lines=2)
-        download_csv = gr.File(label="Baixar embeddings.csv", visible=False)
-    gerar_btn.click(
         fn=process_inputs,
         inputs=[smiles_in, file_in],
         outputs=[output_msg, download_csv]

 import pandas as pd
 import gradio as gr
+# 1) Adjust path before importing the loader
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 INFERENCE_PATH = os.path.join(BASE_DIR, "smi-ted", "inference")
 sys.path.insert(0, INFERENCE_PATH)
 from smi_ted_light.load import load_smi_ted
+# 2) Load the SMI-TED Light model
 MODEL_DIR = os.path.join(INFERENCE_PATH, "smi_ted_light")
 model = load_smi_ted(
     folder=MODEL_DIR,
     vocab_filename="bert_vocab_curated.txt",
 )
+# 3) Single function to process either a single SMILES or a CSV of SMILES
 def process_inputs(smiles: str, file_obj):
+    # If a CSV file is provided, process in batch
     if file_obj is not None:
         try:
             df_in = pd.read_csv(file_obj.name)
             for sm in smiles_list:
                 vec = model.encode(sm, return_torch=True)[0].tolist()
                 embeddings.append(vec)
+            # Build output DataFrame
             out_df = pd.DataFrame(embeddings)
             out_df.insert(0, "smiles", smiles_list)
             out_df.to_csv("embeddings.csv", index=False)
+            msg = f"Processed batch of {len(smiles_list)} SMILES. Download embeddings.csv."
             return msg, gr.update(value="embeddings.csv", visible=True)
         except Exception as e:
+            return f"Error processing batch: {e}", gr.update(visible=False)
+    # Otherwise, process a single SMILES
     smiles = smiles.strip()
     if not smiles:
+        return "Please enter a SMILES or upload a CSV file.", gr.update(visible=False)
     try:
         vec = model.encode(smiles, return_torch=True)[0].tolist()
+        # Save CSV with header
         cols = ["smiles"] + [f"dim_{i}" for i in range(len(vec))]
         df_out = pd.DataFrame([[smiles] + vec], columns=cols)
         df_out.to_csv("embeddings.csv", index=False)
         return json.dumps(vec), gr.update(value="embeddings.csv", visible=True)
     except Exception as e:
+        return f"Error generating embedding: {e}", gr.update(visible=False)
+# 4) Build the Gradio Blocks interface
 with gr.Blocks() as demo:
     gr.Markdown(
         """
         # SMI-TED Embedding Generator
+        **Single mode:** paste a SMILES string in the left box.
+        **Batch mode:** upload a CSV file where each row has a SMILES in the first column.
+        In both cases, an `embeddings.csv` file will be generated for download, with the first column as SMILES and the embedding values in the following columns.
         """
     )
     with gr.Row():
+        smiles_in = gr.Textbox(label="SMILES (single mode)", placeholder="e.g. CCO")
+        file_in   = gr.File(label="SMILES CSV (batch mode)", file_types=[".csv"])
+    generate_btn = gr.Button("Generate Embeddings")
     with gr.Row():
+        output_msg   = gr.Textbox(label="Message / Embedding (JSON)", interactive=False, lines=2)
+        download_csv = gr.File(label="Download embeddings.csv", visible=False)
+    generate_btn.click(
         fn=process_inputs,
         inputs=[smiles_in, file_in],
         outputs=[output_msg, download_csv]