Spaces:

wilwork
/

jina-clip-v1-test

Running

wilwork commited on Feb 27

Commit

c4ab507

verified ·

1 Parent(s): a4d1f68

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import gradio as gr
 from PIL import Image
-from transformers import CLIPProcessor, CLIPModel
 import torch
 # Load Jina CLIP model
 model_name = "jinaai/jina-clip-v1"
 model = CLIPModel.from_pretrained(model_name)
-processor = CLIPProcessor.from_pretrained(model_name)
 def compute_similarity(input1, input2, type1, type2):
     inputs = []
@@ -14,28 +15,28 @@ def compute_similarity(input1, input2, type1, type2):
     # Process input1
     if type1 == "Image":
         image1 = Image.open(input1).convert("RGB")
-        inputs.append(processor(images=image1, return_tensors="pt"))
     else:
-        inputs.append(processor(text=[input1], return_tensors="pt"))
     # Process input2
     if type2 == "Image":
         image2 = Image.open(input2).convert("RGB")
-        inputs.append(processor(images=image2, return_tensors="pt"))
     else:
-        inputs.append(processor(text=[input2], return_tensors="pt"))
     # Compute embeddings
     with torch.no_grad():
         if type1 == "Image":
-            embedding1 = model.get_image_features(**inputs[0])
         else:
-            embedding1 = model.get_text_features(**inputs[0])
         if type2 == "Image":
-            embedding2 = model.get_image_features(**inputs[1])
         else:
-            embedding2 = model.get_text_features(**inputs[1])
     # Compute similarity
     similarity = torch.nn.functional.cosine_similarity(embedding1, embedding2)

 import gradio as gr
 from PIL import Image
+from transformers import CLIPModel, AutoTokenizer, AutoProcessor
 import torch
 # Load Jina CLIP model
 model_name = "jinaai/jina-clip-v1"
 model = CLIPModel.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+processor = AutoProcessor.from_pretrained(model_name)
 def compute_similarity(input1, input2, type1, type2):
     inputs = []
     # Process input1
     if type1 == "Image":
         image1 = Image.open(input1).convert("RGB")
+        inputs.append(processor(images=image1, return_tensors="pt")["pixel_values"])
     else:
+        inputs.append(tokenizer(input1, return_tensors="pt")["input_ids"])
     # Process input2
     if type2 == "Image":
         image2 = Image.open(input2).convert("RGB")
+        inputs.append(processor(images=image2, return_tensors="pt")["pixel_values"])
     else:
+        inputs.append(tokenizer(input2, return_tensors="pt")["input_ids"])
     # Compute embeddings
     with torch.no_grad():
         if type1 == "Image":
+            embedding1 = model.get_image_features(pixel_values=inputs[0])
         else:
+            embedding1 = model.get_text_features(input_ids=inputs[0])
         if type2 == "Image":
+            embedding2 = model.get_image_features(pixel_values=inputs[1])
         else:
+            embedding2 = model.get_text_features(input_ids=inputs[1])
     # Compute similarity
     similarity = torch.nn.functional.cosine_similarity(embedding1, embedding2)