Spaces:

emmas96
/

hyper-dti

Runtime error

App Files Files Community

emmas96 commited on May 24, 2023

Commit

499faaf

1 Parent(s): 483853f

add warnings and progress bars

Browse files

Files changed (1) hide show

app.py +41 -26

app.py CHANGED Viewed

@@ -75,7 +75,7 @@ def predict_dti():
                     from cddd.inference import InferenceModel
                     CDDD_MODEL_DIR = 'src/encoders/cddd'
                     cddd_model = InferenceModel(CDDD_MODEL_DIR)
-                    embedding = cddd_model.seq_to_emb([smiles])
                     #from huggingface_hub import hf_hub_download
                     #precomputed_embs = f'{selected_encoder}_encoding.csv'
                     #REPO_ID = "emmas96/Lenselink"
@@ -89,12 +89,12 @@ def predict_dti():
                     REPO_ID = "emmas96/hyperpcm"
                     checkpoint_path = hf_hub_download(REPO_ID, MOLBERT_MODEL_DIR)
                     molbert_model = MolBertFeaturizer(checkpoint_path, max_seq_len=500, embedding_type='average-1-cat-pooled')
-                    embedding = molbert_model.transform([smiles])
                 else:
                     #st.write('No pre-trained version of HyperPCM is available for the chosen encoder.')
-                    embedding = None
                     st.image('molecule_encoder.png')
-                if embedding is not None:
                     #st.write(f'{selected_encoder} embedding')
                     #st.write(embedding)
                     st.image('molecule_encoder_done.png')
@@ -108,7 +108,8 @@ def predict_dti():
             sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
             if sequence:
-                st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
         with prot_col2:
             selected_encoder = st.selectbox(
@@ -117,41 +118,45 @@ def predict_dti():
             if sequence:
                 if selected_encoder == 'SeqVec':
                     from bio_embeddings.embed import SeqVecEmbedder
-                    encoder = SeqVecEmbedder()
-                    embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
-                        embedding = encoder.reduce_per_protein(emb)
                         break
                 elif selected_encoder == 'UniRep':
                     from jax_unirep.utils import load_params
                     params = load_params()
                     from jax_unirep.featurize import get_reps
                     embedding, h_final, c_final = get_reps([sequence])
-                    embedding = embedding.mean(axis=0)
                 elif selected_encoder == 'ESM-1b':
                     from bio_embeddings.embed import ESM1bEmbedder
                     encoder = ESM1bEmbedder()
                     embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
-                        embedding = encoder.reduce_per_protein(emb)
                         break
                 elif selected_encoder == 'ProtT5':
                     from bio_embeddings.embed import ProtTransT5XLU50Embedder
                     encoder = ProtTransT5XLU50Embedder()
                     embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
-                        embedding = encoder.reduce_per_protein(emb)
                         break
                 else:
-                    #st.write('No pre-trained version of HyperPCM is available for the chosen encoder.')
-                    embedding = None
                     st.image('protein_encoder.png')
-                if embedding is not None:
                     #st.write(f'{selected_encoder} embedding')
                     #st.write(embedding)
                     st.image('protein_encoder_done.png')
-    st.write('TODO run inference with HyperPCM on the given drug compound and protein target.')
 def retrieval():
@@ -165,23 +170,33 @@ def retrieval():
     if sequence:
         col1, col2 = st.columns(2)
         with col1:
-            st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
         with col2:
-            st.write('Currently encoding the protein with SecVec...')
             st.image('protein_encoder_done.png')
-            #from bio_embeddings.embed import SeqVecEmbedder
-            #encoder = SeqVecEmbedder()
-            #embeddings = encoder.embed_batch([sequence])
-            #for emb in embeddings:
-            #    embedding = encoder.reduce_per_protein(emb)
-            #    break
-            st.write('Encoding complete.')
     st.markdown('### Retrieval')
-    st.write('TODO HyperPCM predicts the QSAR model for the given protein target.')
     col1, col2 = st.columns(2)
     with col1:
         selected_dataset = st.selectbox(

                     from cddd.inference import InferenceModel
                     CDDD_MODEL_DIR = 'src/encoders/cddd'
                     cddd_model = InferenceModel(CDDD_MODEL_DIR)
+                    drug_embedding = cddd_model.seq_to_emb([smiles])
                     #from huggingface_hub import hf_hub_download
                     #precomputed_embs = f'{selected_encoder}_encoding.csv'
                     #REPO_ID = "emmas96/Lenselink"
                     REPO_ID = "emmas96/hyperpcm"
                     checkpoint_path = hf_hub_download(REPO_ID, MOLBERT_MODEL_DIR)
                     molbert_model = MolBertFeaturizer(checkpoint_path, max_seq_len=500, embedding_type='average-1-cat-pooled')
+                    drug_embedding = molbert_model.transform([smiles])
                 else:
                     #st.write('No pre-trained version of HyperPCM is available for the chosen encoder.')
+                    drug_embedding = None
                     st.image('molecule_encoder.png')
+                if drug_embedding is not None:
                     #st.write(f'{selected_encoder} embedding')
                     #st.write(embedding)
                     st.image('molecule_encoder_done.png')
             sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
             if sequence:
+                #st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
+                st.error('Visualization of protein to be added soon.')
         with prot_col2:
             selected_encoder = st.selectbox(
             if sequence:
                 if selected_encoder == 'SeqVec':
                     from bio_embeddings.embed import SeqVecEmbedder
+                        encoder = SeqVecEmbedder()
+                    with st.spinner('Currently encoding the query protein target with SeqVec...'):
+                        embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
+                        prot_embedding = encoder.reduce_per_protein(emb)
                         break
                 elif selected_encoder == 'UniRep':
                     from jax_unirep.utils import load_params
                     params = load_params()
                     from jax_unirep.featurize import get_reps
                     embedding, h_final, c_final = get_reps([sequence])
+                    prot_embedding = embedding.mean(axis=0)
                 elif selected_encoder == 'ESM-1b':
                     from bio_embeddings.embed import ESM1bEmbedder
                     encoder = ESM1bEmbedder()
                     embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
+                        prot_embedding = encoder.reduce_per_protein(emb)
                         break
                 elif selected_encoder == 'ProtT5':
                     from bio_embeddings.embed import ProtTransT5XLU50Embedder
                     encoder = ProtTransT5XLU50Embedder()
                     embeddings = encoder.embed_batch([sequence])
                     for emb in embeddings:
+                        prot_embedding = encoder.reduce_per_protein(emb)
                         break
                 else:
+                    st.warning('Chosen encoder above.')
+                    prot_embedding = None
                     st.image('protein_encoder.png')
+                if prot_embedding is not None:
                     #st.write(f'{selected_encoder} embedding')
                     #st.write(embedding)
                     st.image('protein_encoder_done.png')
+    if not drug_embedding or not prot_embedding:
+        st.error('Witing for computed drug and target embeddings...')
+    else:
+        st.warning('In the future inference will be run with HyperPCM on the given drug compound and protein target...')
 def retrieval():
     if sequence:
         col1, col2 = st.columns(2)
         with col1:
+            #st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
+            st.error('Visualization of protein to be added soon.')
         with col2:
+            #st.write('Currently encoding the protein with SecVec...')
             st.image('protein_encoder_done.png')
+            from bio_embeddings.embed import SeqVecEmbedder
+            encoder = SeqVecEmbedder()
+            with st.spinner('Currently encoding the query protein target with SeqVec...'):
+                embeddings = encoder.embed_batch([sequence])
+            for emb in embeddings:
+                embedding = encoder.reduce_per_protein(emb)
+                break
+            st.success('Encoding complete.')
+    st.markdown('### Inference')
+    import time
+    progress_text = "HyperPCM predicts the QSAR model for the query protein target. Please wait."
+    my_bar = st.progress(0, text=progress_text)
+    for i in range(100):
+        time.sleep(0.1)
+        my_bar.progress(i + 1, text=progress_text)
     st.markdown('### Retrieval')
     col1, col2 = st.columns(2)
     with col1:
         selected_dataset = st.selectbox(