Spaces:

Nepjune
/

Project_image_captioning_blip

Runtime error

Nepjune commited on Feb 15, 2024

Commit

6262d5a

verified ·

1 Parent(s): 584b8da

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,13 +1,15 @@
 import gradio as gr
 from transformers import BlipProcessor, BlipForConditionalGeneration
-from gtts import gTTS
-from playsound import playsound
 from concurrent.futures import ThreadPoolExecutor
 model_id = "dblasko/blip-dalle3-img2prompt"
 model = BlipForConditionalGeneration.from_pretrained(model_id)
 processor = BlipProcessor.from_pretrained(model_id)
 def generate_caption(image):
     # Generate caption from image
     inputs = processor(images=image, return_tensors="pt")
@@ -16,14 +18,10 @@ def generate_caption(image):
     generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]
     # Convert the generated caption to speech
-    tts = gTTS(text=generated_caption, lang='en')
-    audio_path = "generated_audio.mp3"
-    tts.save(audio_path)
-    return generated_caption, audio_path
-def play_audio(audio_path):
-    playsound(audio_path)
 # Create a Gradio interface with an image input, a textbox output, a button, and an audio player
 demo = gr.Interface(
@@ -31,7 +29,7 @@ demo = gr.Interface(
     inputs=gr.Image(),
     outputs=[
         gr.Textbox(label="Generated caption"),
-        gr.Button("Convert to Audio", play_audio),
     ],
     live=True  # ทำให้ Gradio ทำงานแบบไม่บล็อก
 )

 import gradio as gr
 from transformers import BlipProcessor, BlipForConditionalGeneration
 from concurrent.futures import ThreadPoolExecutor
+import pyttsx3
 model_id = "dblasko/blip-dalle3-img2prompt"
 model = BlipForConditionalGeneration.from_pretrained(model_id)
 processor = BlipProcessor.from_pretrained(model_id)
+# Initialize Text-to-Speech engine
+tts_engine = pyttsx3.init()
 def generate_caption(image):
     # Generate caption from image
     inputs = processor(images=image, return_tensors="pt")
     generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]
     # Convert the generated caption to speech
+    tts_engine.save_to_file(generated_caption, "generated_audio.mp3")
+    tts_engine.runAndWait()
+    return generated_caption, "generated_audio.mp3"
 # Create a Gradio interface with an image input, a textbox output, a button, and an audio player
 demo = gr.Interface(
     inputs=gr.Image(),
     outputs=[
         gr.Textbox(label="Generated caption"),
+        gr.Button("Convert to Audio", None),
     ],
     live=True  # ทำให้ Gradio ทำงานแบบไม่บล็อก
 )