Spaces:

ktllc
/

Clip-Model

Runtime error

ktllc commited on Oct 17, 2023

Commit

d4c665a

1 Parent(s): 7413961

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,11 +14,11 @@ print(device)
 # Define the Business Listing variable
 Business_Listing = "Air Guide"
-def find_similarity(images, text_input):
     image_features = []
-    # Preprocess and encode multiple images
-    for image in images:
         image = preprocess(image).unsqueeze(0).to(device)
         with torch.no_grad():
             image_feature = model.encode_image(image).float()
@@ -39,15 +39,19 @@ def find_similarity(images, text_input):
         similarity = (text_features @ image_feature.T).cpu().numpy()
         similarities.append(similarity[0, 0])
-    # Find the index of the image with the highest similarity
-    best_match_index = np.argmax(similarities)
     return similarities, best_match_index
 # Define a Gradio interface
 iface = gr.Interface(
     fn=find_similarity,
-    inputs=[gr.Image(type="pil", label="Image 1"), gr.Image(type="pil", label="Image 2"), "text"],
     outputs=["text", "number"],
     live=True,
     interpretation="default",

 # Define the Business Listing variable
 Business_Listing = "Air Guide"
+def find_similarity(image1, image2, text_input):
     image_features = []
+    # Preprocess and encode the two images
+    for image in [image1, image2]:
         image = preprocess(image).unsqueeze(0).to(device)
         with torch.no_grad():
             image_feature = model.encode_image(image).float()
         similarity = (text_features @ image_feature.T).cpu().numpy()
         similarities.append(similarity[0, 0])
+    # Determine which image has a higher similarity to the text
+    best_match_index = 0 if similarities[0] > similarities[1] else 1
     return similarities, best_match_index
 # Define a Gradio interface
 iface = gr.Interface(
     fn=find_similarity,
+    inputs=[
+        gr.Image(type="pil", label="Image 1"),
+        gr.Image(type="pil", label="Image 2"),
+        "text"
+    ],
     outputs=["text", "number"],
     live=True,
     interpretation="default",