Spaces:

emmas96
/

hyper-dti

Running

App Files Files Community

emmas96 commited on May 24, 2023

Commit

b318bc6

1 Parent(s): 4011e18

reformulations

Browse files

Files changed (1) hide show

app.py +51 -46

app.py CHANGED Viewed

@@ -23,6 +23,7 @@ st.markdown(
     🧬 Github: [ml-jku/hyper-dti](https://https://github.com/ml-jku/hyper-dti)    📝 NeurIPS 2022 AI4Science workshop paper: [OpenReview](https://openreview.net/forum?id=dIX34JWnIAL)\n
     """
 )
 def about_page():
@@ -68,7 +69,7 @@ def predict_dti():
         with mol_col2:
             selected_encoder = st.selectbox(
-                'Select encoder for drug compound',('None', 'CDDD', 'MolBERT')
             )
             if smiles:
                 if selected_encoder == 'CDDD':
@@ -90,14 +91,16 @@ def predict_dti():
                     checkpoint_path = hf_hub_download(REPO_ID, MOLBERT_MODEL_DIR)
                     molbert_model = MolBertFeaturizer(checkpoint_path, max_seq_len=500, embedding_type='average-1-cat-pooled')
                     drug_embedding = molbert_model.transform([smiles])
                 else:
-                    #st.write('No pre-trained version of HyperPCM is available for the chosen encoder.')
                     drug_embedding = None
                     st.image('molecule_encoder.png')
                 if drug_embedding is not None:
-                    #st.write(f'{selected_encoder} embedding')
-                    #st.write(embedding)
                     st.image('molecule_encoder_done.png')
     with col2:
         st.markdown('### Target')
@@ -108,53 +111,55 @@ def predict_dti():
             sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
             if sequence:
-                #st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
-                st.error('Visualization of protein to be added soon.')
         with prot_col2:
             selected_encoder = st.selectbox(
                 'Select encoder for protein target',('None', 'SeqVec', 'UniRep', 'ESM-1b', 'ProtT5')
             )
             if sequence:
                 if selected_encoder == 'SeqVec':
-                    from bio_embeddings.embed import SeqVecEmbedder
-                    encoder = SeqVecEmbedder()
-                    with st.spinner('Currently encoding the query protein target with SeqVec...'):
                         embeddings = encoder.embed_batch([sequence])
-                    for emb in embeddings:
-                        prot_embedding = encoder.reduce_per_protein(emb)
-                        break
                 elif selected_encoder == 'UniRep':
-                    from jax_unirep.utils import load_params
-                    params = load_params()
-                    from jax_unirep.featurize import get_reps
-                    embedding, h_final, c_final = get_reps([sequence])
-                    prot_embedding = embedding.mean(axis=0)
                 elif selected_encoder == 'ESM-1b':
-                    from bio_embeddings.embed import ESM1bEmbedder
-                    encoder = ESM1bEmbedder()
-                    embeddings = encoder.embed_batch([sequence])
-                    for emb in embeddings:
-                        prot_embedding = encoder.reduce_per_protein(emb)
-                        break
                 elif selected_encoder == 'ProtT5':
-                    from bio_embeddings.embed import ProtTransT5XLU50Embedder
-                    encoder = ProtTransT5XLU50Embedder()
-                    embeddings = encoder.embed_batch([sequence])
-                    for emb in embeddings:
-                        prot_embedding = encoder.reduce_per_protein(emb)
-                        break
                 else:
-                    st.warning('Chosen encoder above.')
                     prot_embedding = None
-                    st.image('protein_encoder.png')
                 if prot_embedding is not None:
-                    #st.write(f'{selected_encoder} embedding')
-                    #st.write(embedding)
                     st.image('protein_encoder_done.png')
     if not drug_embedding or not prot_embedding:
-        st.error('Witing for computed drug and target embeddings...')
     else:
         st.warning('In the future inference will be run with HyperPCM on the given drug compound and protein target...')
@@ -164,26 +169,25 @@ def retrieval():
     st.write('In the furute this page will retrieve the top-k drug compounds that are predicted to have the highest activity toward the given protein target from either the Lenselink or Davis datasets.')
-    st.markdown('### Choose protein target')
     sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
     if sequence:
         col1, col2 = st.columns(2)
         with col1:
-            #st.markdown('\n\n\n\n Plot of protein to be added soon. \n\n\n\n')
-            st.error('Visualization of protein to be added soon.')
         with col2:
-            #st.write('Currently encoding the protein with SecVec...')
-            st.image('protein_encoder_done.png')
-            from bio_embeddings.embed import SeqVecEmbedder
-            encoder = SeqVecEmbedder()
-            with st.spinner('Currently encoding the query protein target with SeqVec...'):
                 embeddings = encoder.embed_batch([sequence])
-            for emb in embeddings:
-                embedding = encoder.reduce_per_protein(emb)
-                break
             st.success('Encoding complete.')
     st.markdown('### Inference')
@@ -194,6 +198,7 @@ def retrieval():
     for i in range(100):
         time.sleep(0.1)
         my_bar.progress(i + 1, text=progress_text)
     st.markdown('### Retrieval')

     🧬 Github: [ml-jku/hyper-dti](https://https://github.com/ml-jku/hyper-dti)    📝 NeurIPS 2022 AI4Science workshop paper: [OpenReview](https://openreview.net/forum?id=dIX34JWnIAL)\n
     """
 )
+st.error('WARNING! This app is currently under development and should not be used!')
 def about_page():
         with mol_col2:
             selected_encoder = st.selectbox(
+                'Select encoder for drug compound',('None', 'CDDD', 'MolBERT', 'Dummy')
             )
             if smiles:
                 if selected_encoder == 'CDDD':
                     checkpoint_path = hf_hub_download(REPO_ID, MOLBERT_MODEL_DIR)
                     molbert_model = MolBertFeaturizer(checkpoint_path, max_seq_len=500, embedding_type='average-1-cat-pooled')
                     drug_embedding = molbert_model.transform([smiles])
+                elif selected_encoder == 'Dummy':
+                    drug_embedding = [0,1,2,3,4,5]
                 else:
                     drug_embedding = None
                     st.image('molecule_encoder.png')
+                    st.warning('Choose encoder above...')
                 if drug_embedding is not None:
                     st.image('molecule_encoder_done.png')
+                    st.success('Encoding complete.')
     with col2:
         st.markdown('### Target')
             sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
             if sequence:
+                st.error('Visualization comming soon...')
         with prot_col2:
             selected_encoder = st.selectbox(
                 'Select encoder for protein target',('None', 'SeqVec', 'UniRep', 'ESM-1b', 'ProtT5')
             )
+            st.image('protein_encoder.png')
             if sequence:
                 if selected_encoder == 'SeqVec':
+                    with st.spinner('Encoding in progress...'):
+                        from bio_embeddings.embed import SeqVecEmbedder
+                        encoder = SeqVecEmbedder()
                         embeddings = encoder.embed_batch([sequence])
+                        for emb in embeddings:
+                            prot_embedding = encoder.reduce_per_protein(emb)
+                            break
                 elif selected_encoder == 'UniRep':
+                    with st.spinner('Encoding in progress...'):
+                        from jax_unirep.utils import load_params
+                        params = load_params()
+                        from jax_unirep.featurize import get_reps
+                        embedding, h_final, c_final = get_reps([sequence])
+                        prot_embedding = embedding.mean(axis=0)
                 elif selected_encoder == 'ESM-1b':
+                    with st.spinner('Encoding in progress...'):
+                        from bio_embeddings.embed import ESM1bEmbedder
+                        encoder = ESM1bEmbedder()
+                        embeddings = encoder.embed_batch([sequence])
+                        for emb in embeddings:
+                            prot_embedding = encoder.reduce_per_protein(emb)
+                            break
                 elif selected_encoder == 'ProtT5':
+                    with st.spinner('Encoding in progress...'):
+                        from bio_embeddings.embed import ProtTransT5XLU50Embedder
+                        encoder = ProtTransT5XLU50Embedder()
+                        embeddings = encoder.embed_batch([sequence])
+                        for emb in embeddings:
+                            prot_embedding = encoder.reduce_per_protein(emb)
+                            break
                 else:
                     prot_embedding = None
+                    st.warning('Chosen encoder above...')
                 if prot_embedding is not None:
                     st.image('protein_encoder_done.png')
+                    st.success('Encoding complete.')
     if not drug_embedding or not prot_embedding:
+        st.error('Waiting for both drug and target embeddings to be computed...')
     else:
         st.warning('In the future inference will be run with HyperPCM on the given drug compound and protein target...')
     st.write('In the furute this page will retrieve the top-k drug compounds that are predicted to have the highest activity toward the given protein target from either the Lenselink or Davis datasets.')
+    st.markdown('### Target')
     sequence = st.text_input('Enter the amino-acid sequence of the query protein target', value='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA', placeholder='HXHVWPVQDAKARFSEFLDACITEGPQIVSRRGAEEAVLVPIGEWRRLQAAA')
     if sequence:
         col1, col2 = st.columns(2)
         with col1:
+            st.error('Visualization coming soon...')
         with col2:
+            st.image('protein_encoder.png')
+            with st.spinner('Encoding in progress...'):
+                from bio_embeddings.embed import SeqVecEmbedder
+                encoder = SeqVecEmbedder()
                 embeddings = encoder.embed_batch([sequence])
+                for emb in embeddings:
+                    embedding = encoder.reduce_per_protein(emb)
+                    break
+            st.image('protein_encoder_done.png')
             st.success('Encoding complete.')
     st.markdown('### Inference')
     for i in range(100):
         time.sleep(0.1)
         my_bar.progress(i + 1, text=progress_text)
+    my_bar.progress(100, text="HyperPCM predicts the QSAR model for the query protein target. Done.)
     st.markdown('### Retrieval')