Spaces:

ktllc
/

Clip-Model

Runtime error

App Files Files Community

ktllc commited on Oct 17, 2023

Commit

7413961

1 Parent(s): 9caa677

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -16

app.py CHANGED Viewed

@@ -2,6 +2,8 @@ import clip
 import numpy as np
 import torch
 import gradio as gr
 # Load the CLIP model
 model, preprocess = clip.load("ViT-B/32")
@@ -12,34 +14,45 @@ print(device)
 # Define the Business Listing variable
 Business_Listing = "Air Guide"
-def find_similarity(image, text_input):
-    # Preprocess the uploaded image
-    image = preprocess(image).unsqueeze(0).to(device)
     # Prepare input text
     text_tokens = clip.tokenize([text_input]).to(device)
-    # Encode image and text features
-    with torch.no_grad():
-        image_features = model.encode_image(image).float()
-        text_features = model.encode_text(text_tokens).float()
-    # Normalize features and calculate similarity
-    image_features /= image_features.norm(dim=-1, keepdim=True)
     text_features /= text_features.norm(dim=-1, keepdim=True)
-    similarity = (text_features @ image_features.T).cpu().numpy()
-    return similarity[0, 0]
 # Define a Gradio interface
 iface = gr.Interface(
     fn=find_similarity,
-    inputs=[gr.Image(type="pil"), "text"],
-    outputs="number",
     live=True,
     interpretation="default",
     title="CLIP Model Image-Text Cosine Similarity",
-    description="Upload an image and enter text to find their cosine similarity.",
 )
 iface.launch()

 import numpy as np
 import torch
 import gradio as gr
+from PIL import Image
+import os
 # Load the CLIP model
 model, preprocess = clip.load("ViT-B/32")
 # Define the Business Listing variable
 Business_Listing = "Air Guide"
+def find_similarity(images, text_input):
+    image_features = []
+    # Preprocess and encode multiple images
+    for image in images:
+        image = preprocess(image).unsqueeze(0).to(device)
+        with torch.no_grad():
+            image_feature = model.encode_image(image).float()
+            image_features.append(image_feature)
     # Prepare input text
     text_tokens = clip.tokenize([text_input]).to(device)
+    text_features = model.encode_text(text_tokens).float()
+    # Normalize text features
     text_features /= text_features.norm(dim=-1, keepdim=True)
+    similarities = []
+    # Calculate cosine similarity for each image
+    for image_feature in image_features:
+        image_feature /= image_feature.norm(dim=-1, keepdim=True)
+        similarity = (text_features @ image_feature.T).cpu().numpy()
+        similarities.append(similarity[0, 0])
+    # Find the index of the image with the highest similarity
+    best_match_index = np.argmax(similarities)
+    return similarities, best_match_index
 # Define a Gradio interface
 iface = gr.Interface(
     fn=find_similarity,
+    inputs=[gr.Image(type="pil", label="Image 1"), gr.Image(type="pil", label="Image 2"), "text"],
+    outputs=["text", "number"],
     live=True,
     interpretation="default",
     title="CLIP Model Image-Text Cosine Similarity",
+    description="Upload two images and enter text to find their cosine similarity.",
 )
 iface.launch()