Spaces:

JLLeeb
/

MLFPA

Running

App Files Files Community

Jonas Leeb commited on May 21

Commit

b4a0b98

1 Parent(s): 6c71bbc

fixed bug with pca and fixed requirements

Browse files

Files changed (2) hide show

app.py +15 -5
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -132,16 +132,26 @@ class ArxivSearch:
         pca = PCA(n_components=3)
         results_indices = [i[0] for i in self.last_results]
         if embedding == "tfidf":
-            reduced_data = pca.fit_transform(self.tfidf_matrix[:5000].toarray())
-            reduced_results_points = pca.transform(self.tfidf_matrix[results_indices].toarray())  if len(results_indices) > 0 else np.empty((0, 3))
         elif embedding == "word2vec":
-            reduced_data = pca.fit_transform(self.word2vec_embeddings[:5000])
             reduced_results_points = pca.transform(self.word2vec_embeddings[results_indices]) if len(results_indices) > 0 else np.empty((0, 3))
         elif embedding == "bert":
-            reduced_data = pca.fit_transform(self.bert_embeddings[:5000])
             reduced_results_points = pca.transform(self.bert_embeddings[results_indices]) if len(results_indices) > 0 else np.empty((0, 3))
         else:
             raise ValueError(f"Unsupported embedding type: {embedding}")
         trace = go.Scatter3d(
@@ -171,7 +181,7 @@ class ArxivSearch:
                 y=reduced_results_points[:, 1],
                 z=reduced_results_points[:, 2],
                 mode='markers',
-                marker=dict(size=3.5, color='orange', opacity=0.9),
             )
             fig = go.Figure(data=[trace, results_trace], layout=layout)
         else:

         pca = PCA(n_components=3)
         results_indices = [i[0] for i in self.last_results]
         if embedding == "tfidf":
+            all_indices = list(set(results_indices) | set(range(min(5000, self.tfidf_matrix.shape[0]))))
+            all_data = self.tfidf_matrix[all_indices].toarray()
+            pca.fit(all_data)
+            reduced_data = pca.transform(self.tfidf_matrix[:5000].toarray())
+            reduced_results_points = pca.transform(self.tfidf_matrix[results_indices].toarray()) if len(results_indices) > 0 else np.empty((0, 3))
         elif embedding == "word2vec":
+            all_indices = list(set(results_indices) | set(range(min(5000, self.word2vec_embeddings.shape[0]))))
+            all_data = self.word2vec_embeddings[all_indices]
+            pca.fit(all_data)
+            reduced_data = pca.transform(self.word2vec_embeddings[:5000])
             reduced_results_points = pca.transform(self.word2vec_embeddings[results_indices]) if len(results_indices) > 0 else np.empty((0, 3))
         elif embedding == "bert":
+            all_indices = list(set(results_indices) | set(range(min(5000, self.bert_embeddings.shape[0]))))
+            all_data = self.bert_embeddings[all_indices]
+            pca.fit(all_data)
+            reduced_data = pca.transform(self.bert_embeddings[:5000])
             reduced_results_points = pca.transform(self.bert_embeddings[results_indices]) if len(results_indices) > 0 else np.empty((0, 3))
         else:
             raise ValueError(f"Unsupported embedding type: {embedding}")
         trace = go.Scatter3d(
                 y=reduced_results_points[:, 1],
                 z=reduced_results_points[:, 2],
                 mode='markers',
+                marker=dict(size=3.5, color='orange', opacity=0.75),
             )
             fig = go.Figure(data=[trace, results_trace], layout=layout)
         else:

requirements.txt CHANGED Viewed

@@ -5,4 +5,5 @@ datasets
 torch
 gensim
 scikit-learn
-transformers

 torch
 gensim
 scikit-learn
+transformers
+plotly