Spaces:

Nepjune
/

Project_image_captioning_blip

Runtime error

Nepjune commited on Feb 15, 2024

Commit

fe24d04

verified ·

1 Parent(s): 7872b1f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,31 +1,19 @@
-from transformers import ViTFeatureExtractor, ViTForImageToText, AutoTokenizer
-import torch
-from PIL import Image
-model = ViTForImageToText.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-feature_extractor = ViTFeatureExtractor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-max_length = 16
-num_beams = 4
-gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
-def predict_caption(image_paths):
-    images = []
-    for image_path in image_paths:
-        image = Image.open(image_path)
-        if image.mode != "RGB":
-            image = image.convert(mode="RGB")
-        images.append(image)
-    pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
-    pixel_values = pixel_values.to(device)
-    output_ids = model.generate(pixel_values, **gen_kwargs)
-    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
-    return preds

+import gradio as gr
+from transformers import BlipProcessor, BlipForConditionalGeneration
+model_id = "dblasko/blip-dalle3-img2prompt"
+model = BlipForConditionalGeneration.from_pretrained(model_id)
+processor = BlipProcessor.from_pretrained(model_id)
+def generate_caption(image):
+  inputs = processor(images=image, return_tensors="pt")
+  pixel_values = inputs.pixel_values
+  generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
+  generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]
+  return generated_caption
+# Create a gradio interface with an image input and a textbox output
+demo = gr.Interface(fn=generate_caption, inputs=gr.Image(shape=(224, 224)), outputs=gr.Textbox(label="Generated caption"))
+demo.launch()