from transformers import pipeline
import gradio as gr

pipe=pipeline("image-to-text",model="Salesforce/blip-image-captioning-base")

def launch(input):
  output=pipe(input)
  return output[0]['generated_text']

iface=gr.Interface(
    fn=launch,
    inputs=gr.Image(type='pil'),
    outputs="text"
)

iface.launch()