Spaces:

Nepjune
/

Project_image_captioning_blip

Runtime error

File size: 1,734 Bytes

8fe5718
829b25c
f1b8b86
6b4a9a6
829b25c
 
 
 
6d97bc1
829b25c
f1b8b86
 
 
829b25c
6262d5a
829b25c
 
 
 
 
 
5fe2fff
829b25c
 
 
 
 
 
 
5fe2fff
829b25c
 
5fe2fff
829b25c
 
 
ff7ab28
 
5fe2fff
97599f2

import gradio as gr
from transformers import BlipProcessor, BlipForConditionalGeneration, AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
from transformers import AutoTokenizer

# Initialize Blip model for image captioning
model_id = "dblasko/blip-dalle3-img2prompt"
blip_model = BlipForConditionalGeneration.from_pretrained(model_id)
blip_processor = BlipProcessor.from_pretrained(model_id)

# Initialize TTS model from Hugging Face
model_name = "facebook/tts-crdnn-baker-softmax"
tts_tokenizer = AutoTokenizer.from_pretrained(model_name)
tts_model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
tts = pipeline(task="text2speech", model=tts_model, tokenizer=tts_tokenizer)

def generate_caption(image):
    # Generate caption from image using Blip model
    inputs = blip_processor(images=image, return_tensors="pt")
    pixel_values = inputs.pixel_values
    generated_ids = blip_model.generate(pixel_values=pixel_values, max_length=50)
    generated_caption = blip_processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]

    # Use TTS model to convert generated caption to audio
    audio_output = tts(generated_caption)
    audio_output.save_to_path("generated_audio.mp3")

    return generated_caption, "generated_audio.mp3"

# Create a Gradio interface with an image input, a textbox output, a button, and an audio player
demo = gr.Interface(
    fn=generate_caption, 
    inputs=gr.Image(), 
    outputs=[
        gr.Textbox(label="Generated caption"), 
        gr.Button("Convert to Audio"), 
        gr.Audio(type="player", label="Generated Audio")
    ],
    live=True  # ทำให้ Gradio ทำงานแบบไม่บล็อก
)
demo.launch(share=True)