Spaces:

JLLeeb
/

MLFPA

Running

App Files Files Community

Jonas Leeb commited on May 23

Commit

a7b2b6d

1 Parent(s): 66113e1

multiple deivces shouldnt interfer as much

Browse files

Files changed (1) hide show

app.py +30 -25

app.py CHANGED Viewed

@@ -28,7 +28,7 @@ class ArxivSearch:
         # model selection
         self.embedding_dropdown = gr.Dropdown(
-            choices=["tfidf", "word2vec", "bert", "scibert", "sbert"],
             value="bert",
             label="Model"
             )
@@ -56,9 +56,14 @@ class ArxivSearch:
                 inputs=[self.query_box, self.embedding_dropdown],
                 outputs=self.output_md
             )
             self.embedding_dropdown.change(
-                self.model_switch,
-                inputs=[self.embedding_dropdown],
                 outputs=self.output_md
             )
             self.plot_button.click(
@@ -73,12 +78,12 @@ class ArxivSearch:
             )
         self.load_data(dataset)
-        self.load_model(embedding)
-        # self.load_model('tfidf')
-        # self.load_model('word2vec')
-        # self.load_model('bert')
         # self.load_model('scibert')
-        # self.load_model('sbert')
         self.iface.launch()
@@ -139,8 +144,8 @@ class ArxivSearch:
             reduced_data, reduced_results_points, query_point = self.plot_dense(self.bert_embeddings, pca, results_indices)
         elif self.embedding == "sbert":
             reduced_data, reduced_results_points, query_point = self.plot_dense(self.sbert_embedding, pca, results_indices)
-        elif self.embedding == "scibert":
-            reduced_data, reduced_results_points, query_point = self.plot_dense(self.scibert_embeddings, pca, results_indices)
         else:
             raise ValueError(f"Unsupported embedding type: {self.embedding}")
         trace = go.Scatter3d(
@@ -241,17 +246,17 @@ class ArxivSearch:
         print(f"sim, top_indices: {sims}, {top_indices}")
         return [(i, sims[i]) for i in top_indices]
-    def scibert_search(self, query, top_n=10):
-        with torch.no_grad():
-            inputs = self.sci_tokenizer(query, return_tensors="pt", truncation=True, padding=True, max_length=512)
-            outputs = self.sci_model(**inputs)
-            query_vec = outputs.last_hidden_state[:, 0, :].numpy()
-        self.query_encoding = query_vec
-        sims = cosine_similarity(query_vec, self.scibert_embeddings).flatten()
-        top_indices = sims.argsort()[::-1][:top_n]
-        print(f"sim, top_indices: {sims}, {top_indices}")
-        return [(i, sims[i]) for i in top_indices]
     def sbert_search(self, query, top_n=10):
         query_vec = self.sbert_model.encode([query])
@@ -312,11 +317,11 @@ class ArxivSearch:
             self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
             self.model = BertModel.from_pretrained('bert-base-uncased')
             self.model.eval()
-        elif self.embedding == "scibert":
-            self.scibert_embeddings = np.load("SciBERT_embeddings/scibert_embedding.npz")["bert_embedding"]
-            self.sci_tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
-            self.sci_model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased')
-            self.sci_model.eval()
         elif self.embedding == "sbert":
             self.sbert_model = SentenceTransformer("all-MiniLM-L6-v2")
             self.sbert_embedding = np.load("BERT embeddings/sbert_embedding.npz")["sbert_embedding"]

         # model selection
         self.embedding_dropdown = gr.Dropdown(
+            choices=["tfidf", "word2vec", "bert", "sbert"],
             value="bert",
             label="Model"
             )
                 inputs=[self.query_box, self.embedding_dropdown],
                 outputs=self.output_md
             )
+            # self.embedding_dropdown.change(
+            #     self.model_switch,
+            #     inputs=[self.embedding_dropdown],
+            #     outputs=self.output_md
+            # )
             self.embedding_dropdown.change(
+                self.search_function,
+                inputs=[self.query_box, self.embedding_dropdown],
                 outputs=self.output_md
             )
             self.plot_button.click(
             )
         self.load_data(dataset)
+        # self.load_model(embedding)
+        self.load_model('tfidf')
+        self.load_model('word2vec')
+        self.load_model('bert')
         # self.load_model('scibert')
+        self.load_model('sbert')
         self.iface.launch()
             reduced_data, reduced_results_points, query_point = self.plot_dense(self.bert_embeddings, pca, results_indices)
         elif self.embedding == "sbert":
             reduced_data, reduced_results_points, query_point = self.plot_dense(self.sbert_embedding, pca, results_indices)
+        # elif self.embedding == "scibert":
+        #     reduced_data, reduced_results_points, query_point = self.plot_dense(self.scibert_embeddings, pca, results_indices)
         else:
             raise ValueError(f"Unsupported embedding type: {self.embedding}")
         trace = go.Scatter3d(
         print(f"sim, top_indices: {sims}, {top_indices}")
         return [(i, sims[i]) for i in top_indices]
+    # def scibert_search(self, query, top_n=10):
+    #     with torch.no_grad():
+    #         inputs = self.sci_tokenizer(query, return_tensors="pt", truncation=True, padding=True, max_length=512)
+    #         outputs = self.sci_model(**inputs)
+    #         query_vec = outputs.last_hidden_state[:, 0, :].numpy()
+    #     self.query_encoding = query_vec
+    #     sims = cosine_similarity(query_vec, self.scibert_embeddings).flatten()
+    #     top_indices = sims.argsort()[::-1][:top_n]
+    #     print(f"sim, top_indices: {sims}, {top_indices}")
+    #     return [(i, sims[i]) for i in top_indices]
     def sbert_search(self, query, top_n=10):
         query_vec = self.sbert_model.encode([query])
             self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
             self.model = BertModel.from_pretrained('bert-base-uncased')
             self.model.eval()
+        # elif self.embedding == "scibert":
+        #     self.scibert_embeddings = np.load("SciBERT_embeddings/scibert_embedding.npz")["bert_embedding"]
+        #     self.sci_tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased')
+        #     self.sci_model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased')
+        #     self.sci_model.eval()
         elif self.embedding == "sbert":
             self.sbert_model = SentenceTransformer("all-MiniLM-L6-v2")
             self.sbert_embedding = np.load("BERT embeddings/sbert_embedding.npz")["sbert_embedding"]