Update app.py
Browse files
app.py
CHANGED
|
@@ -1,10 +1,10 @@
|
|
| 1 |
import gradio as gr
|
| 2 |
import torch
|
| 3 |
-
from transformers import
|
| 4 |
import time
|
| 5 |
from functools import wraps
|
| 6 |
import sys
|
| 7 |
-
import
|
| 8 |
|
| 9 |
# Decorador para medir el tiempo de ejecuci贸n
|
| 10 |
def medir_tiempo(func):
|
|
@@ -24,118 +24,86 @@ if device == "cpu":
|
|
| 24 |
print("Advertencia: CUDA no est谩 disponible. Se usar谩 la CPU, lo que puede ser lento.")
|
| 25 |
|
| 26 |
# Cargar el modelo y el tokenizador
|
| 27 |
-
model_name = "
|
| 28 |
|
| 29 |
try:
|
| 30 |
print("Cargando el tokenizador...")
|
| 31 |
-
tokenizer =
|
| 32 |
except ValueError as e:
|
| 33 |
print(f"Error al cargar el tokenizador: {e}")
|
| 34 |
sys.exit(1)
|
| 35 |
|
| 36 |
try:
|
| 37 |
print("Cargando el modelo...")
|
| 38 |
-
model =
|
| 39 |
model.to(device)
|
| 40 |
except Exception as e:
|
| 41 |
print(f"Error al cargar el modelo: {e}")
|
| 42 |
sys.exit(1)
|
| 43 |
|
| 44 |
-
@spaces.GPU(duration=120) # Decorador para asignar GPU durante 120 segundos
|
| 45 |
@medir_tiempo
|
| 46 |
-
def
|
| 47 |
"""
|
| 48 |
-
Funci贸n que
|
| 49 |
"""
|
| 50 |
try:
|
| 51 |
if not secuencias.strip():
|
| 52 |
-
return "Por favor, ingresa una o m谩s secuencias de ARN v谩lidas."
|
| 53 |
|
| 54 |
# Separar las secuencias por l铆neas y eliminar espacios vac铆os
|
| 55 |
secuencias_lista = [seq.strip().upper() for seq in secuencias.strip().split('\n') if seq.strip()]
|
| 56 |
resultados = []
|
| 57 |
|
|
|
|
|
|
|
|
|
|
| 58 |
for seq in secuencias_lista:
|
| 59 |
-
#
|
| 60 |
-
if not
|
| 61 |
-
resultados.append(f"Secuencia
|
| 62 |
continue
|
| 63 |
|
| 64 |
-
#
|
| 65 |
-
|
| 66 |
-
input_ids = inputs["input_ids"].to(device)
|
| 67 |
-
attention_mask = inputs["attention_mask"].to(device)
|
| 68 |
-
|
| 69 |
-
# Aplicar el modelo para obtener los logits
|
| 70 |
-
with torch.no_grad():
|
| 71 |
-
outputs = model(input_ids=input_ids, attention_mask=attention_mask)
|
| 72 |
-
|
| 73 |
-
# Asumimos que el modelo devuelve logits para cada nucle贸tido que indican la estructura secundaria
|
| 74 |
-
# Debes ajustar esto seg煤n la arquitectura espec铆fica de OmniGenome
|
| 75 |
-
|
| 76 |
-
# Por ejemplo, supongamos que el modelo tiene una cabeza de clasificaci贸n con N etiquetas
|
| 77 |
-
# donde cada etiqueta representa una clase de estructura secundaria (e.g., Helix, Loop, etc.)
|
| 78 |
-
|
| 79 |
-
# Obtener las predicciones seleccionando la clase con el logit m谩s alto
|
| 80 |
-
predictions = torch.argmax(outputs.logits, dim=-1).squeeze().tolist()
|
| 81 |
-
|
| 82 |
-
# Definir el mapeo de clases seg煤n la documentaci贸n del modelo OmniGenome
|
| 83 |
-
# Este mapeo debe ajustarse a las clases espec铆ficas que OmniGenome predice
|
| 84 |
-
# Por ejemplo:
|
| 85 |
-
structure_mapping = {
|
| 86 |
-
0: 'Helix',
|
| 87 |
-
1: 'Loop',
|
| 88 |
-
2: 'Bulge',
|
| 89 |
-
3: 'Internal Loop',
|
| 90 |
-
# Agrega m谩s clases si es necesario
|
| 91 |
-
}
|
| 92 |
-
|
| 93 |
-
# Convertir las predicciones num茅ricas a etiquetas legibles
|
| 94 |
-
predicted_structures = [structure_mapping.get(pred, "Unknown") for pred in predictions]
|
| 95 |
-
|
| 96 |
-
# Emparejar cada nucle贸tido con su etiqueta de estructura predicha
|
| 97 |
-
nucleotide_to_structure = list(zip(list(seq), predicted_structures))
|
| 98 |
|
| 99 |
-
# Formatear
|
| 100 |
-
|
| 101 |
-
for
|
| 102 |
-
|
| 103 |
|
| 104 |
-
|
| 105 |
-
resultados.append("\n".join(secuencia_resultado))
|
| 106 |
|
| 107 |
-
# Unir los resultados de todas las secuencias separadas por dos saltos de l铆nea
|
| 108 |
return "\n\n".join(resultados)
|
| 109 |
|
| 110 |
except Exception as e:
|
| 111 |
print(f"Error durante la predicci贸n: {e}")
|
| 112 |
-
return f"Error al
|
| 113 |
|
| 114 |
# Definir la interfaz de Gradio
|
| 115 |
-
titulo = "OmniGenome: Predicci贸n de
|
| 116 |
descripcion = (
|
| 117 |
-
"Ingresa una o m谩s secuencias de ARN (una por l铆nea)
|
| 118 |
-
" El modelo utilizado es
|
| 119 |
)
|
| 120 |
|
| 121 |
iface = gr.Interface(
|
| 122 |
-
fn=
|
| 123 |
inputs=gr.Textbox(
|
| 124 |
lines=10,
|
| 125 |
-
placeholder="Escribe tus secuencias de ARN aqu铆, una por l铆nea
|
| 126 |
-
label="Secuencias de ARN"
|
| 127 |
),
|
| 128 |
-
outputs=gr.Textbox(label="Predicciones de
|
| 129 |
title=titulo,
|
| 130 |
description=descripcion,
|
| 131 |
examples=[
|
| 132 |
[
|
| 133 |
-
"
|
| 134 |
-
"
|
| 135 |
],
|
| 136 |
[
|
| 137 |
-
"
|
| 138 |
-
"
|
| 139 |
]
|
| 140 |
],
|
| 141 |
cache_examples=False,
|
|
|
|
| 1 |
import gradio as gr
|
| 2 |
import torch
|
| 3 |
+
from transformers import pipeline
|
| 4 |
import time
|
| 5 |
from functools import wraps
|
| 6 |
import sys
|
| 7 |
+
from multimolecule import RnaTokenizer, RnaFmModel # Importar clases espec铆ficas de multimolecule
|
| 8 |
|
| 9 |
# Decorador para medir el tiempo de ejecuci贸n
|
| 10 |
def medir_tiempo(func):
|
|
|
|
| 24 |
print("Advertencia: CUDA no est谩 disponible. Se usar谩 la CPU, lo que puede ser lento.")
|
| 25 |
|
| 26 |
# Cargar el modelo y el tokenizador
|
| 27 |
+
model_name = "multimolecule/mrnafm"
|
| 28 |
|
| 29 |
try:
|
| 30 |
print("Cargando el tokenizador...")
|
| 31 |
+
tokenizer = RnaTokenizer.from_pretrained(model_name)
|
| 32 |
except ValueError as e:
|
| 33 |
print(f"Error al cargar el tokenizador: {e}")
|
| 34 |
sys.exit(1)
|
| 35 |
|
| 36 |
try:
|
| 37 |
print("Cargando el modelo...")
|
| 38 |
+
model = RnaFmModel.from_pretrained(model_name)
|
| 39 |
model.to(device)
|
| 40 |
except Exception as e:
|
| 41 |
print(f"Error al cargar el modelo: {e}")
|
| 42 |
sys.exit(1)
|
| 43 |
|
|
|
|
| 44 |
@medir_tiempo
|
| 45 |
+
def predecir_fill_mask(secuencias):
|
| 46 |
"""
|
| 47 |
+
Funci贸n que realiza una predicci贸n de Fill-Mask para las secuencias de ARN proporcionadas.
|
| 48 |
"""
|
| 49 |
try:
|
| 50 |
if not secuencias.strip():
|
| 51 |
+
return "Por favor, ingresa una o m谩s secuencias de ARN v谩lidas con <mask> para predecir."
|
| 52 |
|
| 53 |
# Separar las secuencias por l铆neas y eliminar espacios vac铆os
|
| 54 |
secuencias_lista = [seq.strip().upper() for seq in secuencias.strip().split('\n') if seq.strip()]
|
| 55 |
resultados = []
|
| 56 |
|
| 57 |
+
# Crear el pipeline de fill-mask utilizando el tokenizador y modelo cargados
|
| 58 |
+
fill_mask = pipeline('fill-mask', model=model, tokenizer=tokenizer, device=0 if device == "cuda" else -1)
|
| 59 |
+
|
| 60 |
for seq in secuencias_lista:
|
| 61 |
+
# Asegurarse de que la secuencia contenga al menos un <mask>
|
| 62 |
+
if "<MASK>" not in seq and "<mask>" not in seq:
|
| 63 |
+
resultados.append(f"Secuencia sin token <mask>: {seq}. Agrega <mask> donde desees predecir.")
|
| 64 |
continue
|
| 65 |
|
| 66 |
+
# Realizar la predicci贸n de fill-mask
|
| 67 |
+
predictions = fill_mask(seq)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 68 |
|
| 69 |
+
# Formatear las predicciones
|
| 70 |
+
pred_str = ""
|
| 71 |
+
for pred in predictions:
|
| 72 |
+
pred_str += f"Predicci贸n: {pred['sequence']}, Score: {pred['score']:.4f}\n"
|
| 73 |
|
| 74 |
+
resultados.append(f"Secuencia: {seq}\n{pred_str}")
|
|
|
|
| 75 |
|
|
|
|
| 76 |
return "\n\n".join(resultados)
|
| 77 |
|
| 78 |
except Exception as e:
|
| 79 |
print(f"Error durante la predicci贸n: {e}")
|
| 80 |
+
return f"Error al realizar la predicci贸n: {e}"
|
| 81 |
|
| 82 |
# Definir la interfaz de Gradio
|
| 83 |
+
titulo = "OmniGenome: Predicci贸n de Fill-Mask para Secuencias de ARN"
|
| 84 |
descripcion = (
|
| 85 |
+
"Ingresa una o m谩s secuencias de ARN (una por l铆nea) con un token <mask> donde deseas realizar la predicci贸n."
|
| 86 |
+
" El modelo utilizado es mRNA-FM de MultiMolecule, un modelo pre-entrenado de lenguaje para secuencias de ARN."
|
| 87 |
)
|
| 88 |
|
| 89 |
iface = gr.Interface(
|
| 90 |
+
fn=predecir_fill_mask,
|
| 91 |
inputs=gr.Textbox(
|
| 92 |
lines=10,
|
| 93 |
+
placeholder="Escribe tus secuencias de ARN aqu铆, una por l铆nea, incluyendo <mask> donde desees predecir...",
|
| 94 |
+
label="Secuencias de ARN con <mask>"
|
| 95 |
),
|
| 96 |
+
outputs=gr.Textbox(label="Predicciones de Fill-Mask"),
|
| 97 |
title=titulo,
|
| 98 |
description=descripcion,
|
| 99 |
examples=[
|
| 100 |
[
|
| 101 |
+
"AUGGCUACUUU<mask>G",
|
| 102 |
+
"GCGCGAU<mask>CGACGUAGCUAGC"
|
| 103 |
],
|
| 104 |
[
|
| 105 |
+
"AUAUGCGGUAUCGU<mask>GUA",
|
| 106 |
+
"GGAUACGUGAU<mask>GCUAGCAGU"
|
| 107 |
]
|
| 108 |
],
|
| 109 |
cache_examples=False,
|