clip

Sleeping

App Files Files Community

Vivien commited on Jan 31, 2022

Commit

5b1c1bd

1 Parent(s): 7a848b2

Improve the composition of queries

Browse files

Files changed (1) hide show

app.py +27 -27

app.py CHANGED Viewed

@@ -23,7 +23,6 @@ def load():
         embeddings[k] = embeddings[k] / np.linalg.norm(
             embeddings[k], axis=1, keepdims=True
         )
-        embeddings[k] = embeddings[k] - np.mean(embeddings[k], axis=0)
     return model, processor, df, embeddings
@@ -46,39 +45,40 @@ def image_search(query, corpus, n_results=24):
         else:
             return np.concatenate((e1, e2), axis=0)
-    splitted_query = query.split(" EXCLUDING ")
-    positive_queries = splitted_query[0].split(";")
-    for positive_query in positive_queries:
-        match = re.match(r"\[(Movies|Unsplash):(\d{1,5})\](.*)", positive_query)
-        if match:
-            corpus2, idx, remainder = match.groups()
-            idx, remainder = int(idx), remainder.strip()
-            k = 0 if corpus2 == "Unsplash" else 1
-            positive_embeddings = concatenate_embeddings(
-                positive_embeddings, embeddings[k][idx : idx + 1, :]
-            )
-            if len(remainder) > 0:
                 positive_embeddings = concatenate_embeddings(
-                    positive_embeddings, compute_text_embeddings([remainder])
                 )
-        else:
-            positive_embeddings = concatenate_embeddings(
-                positive_embeddings, compute_text_embeddings([positive_query])
-            )
-    k = 0 if corpus == "Unsplash" else 1
-    dot_product = embeddings[k] @ positive_embeddings.T
-    dot_product = dot_product - np.mean(dot_product, axis=0)
-    dot_product = dot_product / np.linalg.norm(dot_product, axis=0)
-    dot_product = np.min(dot_product, axis=1)
     if len(splitted_query) > 1:
         negative_queries = (" ".join(splitted_query[1:])).split(";")
         negative_embeddings = compute_text_embeddings(negative_queries)
         dot_product2 = embeddings[k] @ negative_embeddings.T
-        dot_product2 = dot_product2 - np.mean(dot_product2, axis=0)
-        dot_product2 = dot_product2 / np.linalg.norm(dot_product2, axis=0)
-        dot_product -= np.max(dot_product2, axis=1)
     results = np.argsort(dot_product)[-1 : -n_results - 1 : -1]
     return [

         embeddings[k] = embeddings[k] / np.linalg.norm(
             embeddings[k], axis=1, keepdims=True
         )
     return model, processor, df, embeddings
         else:
             return np.concatenate((e1, e2), axis=0)
+    splitted_query = query.split("EXCLUDING ")
+    dot_product = 0
+    k = 0 if corpus == "Unsplash" else 1
+    if len(splitted_query[0]) > 0:
+        positive_queries = splitted_query[0].split(";")
+        for positive_query in positive_queries:
+            match = re.match(r"\[(Movies|Unsplash):(\d{1,5})\](.*)", positive_query)
+            if match:
+                corpus2, idx, remainder = match.groups()
+                idx, remainder = int(idx), remainder.strip()
+                k2 = 0 if corpus2 == "Unsplash" else 1
                 positive_embeddings = concatenate_embeddings(
+                    positive_embeddings, embeddings[k2][idx : idx + 1, :]
                 )
+                if len(remainder) > 0:
+                    positive_embeddings = concatenate_embeddings(
+                        positive_embeddings, compute_text_embeddings([remainder])
+                    )
+            else:
+                positive_embeddings = concatenate_embeddings(
+                    positive_embeddings, compute_text_embeddings([positive_query])
+                )
+        dot_product = embeddings[k] @ positive_embeddings.T
+        dot_product = dot_product - np.median(dot_product, axis=0)
+        dot_product = dot_product / np.max(dot_product, axis=0, keepdims=True)
+        dot_product = np.min(dot_product, axis=1)
     if len(splitted_query) > 1:
         negative_queries = (" ".join(splitted_query[1:])).split(";")
         negative_embeddings = compute_text_embeddings(negative_queries)
         dot_product2 = embeddings[k] @ negative_embeddings.T
+        dot_product2 = dot_product2 - np.median(dot_product2, axis=0)
+        dot_product2 = dot_product2 / np.max(dot_product2, axis=0, keepdims=True)
+        dot_product -= np.max(np.maximum(dot_product2, 0), axis=1)
     results = np.argsort(dot_product)[-1 : -n_results - 1 : -1]
     return [