TencentARC
/

QA-CLIP-ViT-B-16

Zero-Shot Image Classification

Model card Files Files and versions

Kunyi commited on May 15, 2023

Commit

5faf483

·

1 Parent(s): 72d0897

Update README.md

Files changed (1) hide show

README.md +21 -22

README.md CHANGED Viewed

@@ -174,36 +174,35 @@ pip install -r requirements.txt
 ```
 ## Inference Code
-```bash
-export PYTHONPATH=/yourpath/QA-CLIP-main
-```
 Inference code example：
 ```python
-import torch
 from PIL import Image
-import clip as clip
-from clip import load_from_name, available_models
-print("Available models:", available_models())
-# Available models: ['ViT-B-16', 'ViT-L-14', 'RN50']
-device = "cuda" if torch.cuda.is_available() else "cpu"
-model, preprocess = load_from_name("ViT-B-16", device=device, download_root='./')
-model.eval()
-image = preprocess(Image.open("examples/pokemon.jpeg")).unsqueeze(0).to(device)
-text = clip.tokenize(["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]).to(device)
-with torch.no_grad():
-    image_features = model.encode_image(image)
-    text_features = model.encode_text(text)
-    # Normalize the features. Please use the normalized features for downstream tasks.
-    image_features /= image_features.norm(dim=-1, keepdim=True)
-    text_features /= text_features.norm(dim=-1, keepdim=True)
-    logits_per_image, logits_per_text = model.get_similarity(image, text)
-    probs = logits_per_image.softmax(dim=-1).cpu().numpy()
-print("Label probs:", probs)
 ```
 <br><br>

 ```
 ## Inference Code
 Inference code example：
 ```python
 from PIL import Image
+import requests
+from transformers import ChineseCLIPProcessor, ChineseCLIPModel
+model = ChineseCLIPModel.from_pretrained("TencentARC/QA-CLIP-ViT-B-16")
+processor = ChineseCLIPProcessor.from_pretrained("TencentARC/QA-CLIP-ViT-B-16")
+url = "https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg"
+image = Image.open(requests.get(url, stream=True).raw)
+# Squirtle, Bulbasaur, Charmander, Pikachu in English
+texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]
+# compute image feature
+inputs = processor(images=image, return_tensors="pt")
+image_features = model.get_image_features(**inputs)
+image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)  # normalize
+# compute text features
+inputs = processor(text=texts, padding=True, return_tensors="pt")
+text_features = model.get_text_features(**inputs)
+text_features = text_features / text_features.norm(p=2, dim=-1, keepdim=True)  # normalize
+# compute image-text similarity scores
+inputs = processor(text=texts, images=image, return_tensors="pt", padding=True)
+outputs = model(**inputs)
+logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
+probs = logits_per_image.softmax(dim=1)
 ```
 <br><br>