Spaces:

Nepjune
/

Project_image_captioning_blip

Runtime error

App Files Files Community

Nepjune commited on Feb 29, 2024

Commit

8f2fa48

verified ·

1 Parent(s): eaa3654

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -12

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import torchaudio
 from torchaudio.transforms import Resample
 import torch
 import gradio as gr
 # Initialize TTS model from Hugging Face
 tts_model_name = "Kamonwan/blip-image-captioning-new"
@@ -13,6 +14,8 @@ model_id = "Kamonwan/blip-image-captioning-new"
 blip_model = BlipForConditionalGeneration.from_pretrained(model_id)
 blip_processor = BlipProcessor.from_pretrained(model_id)
 def generate_caption(image):
     # Generate caption from image using Blip model
     inputs = blip_processor(images=image, return_tensors="pt")
@@ -27,15 +30,43 @@ def generate_caption(image):
     return generated_caption, audio_path
-# Create a Gradio interface with an image input, a textbox output, a button, and an audio player
-demo = gr.Interface(
-    fn=generate_caption,
-    inputs=gr.Image(),
-    outputs=[
-        gr.Textbox(label="Generated caption"),
-        gr.Button("Convert to Audio"),
-        gr.Audio(type="filepath", label="Generated Audio")
-    ],
-    live=True
-)
-demo.launch(share=True)

 from torchaudio.transforms import Resample
 import torch
 import gradio as gr
+from flask import Flask, jsonify, render_template_string
 # Initialize TTS model from Hugging Face
 tts_model_name = "Kamonwan/blip-image-captioning-new"
 blip_model = BlipForConditionalGeneration.from_pretrained(model_id)
 blip_processor = BlipProcessor.from_pretrained(model_id)
+app = Flask(__name__)
 def generate_caption(image):
     # Generate caption from image using Blip model
     inputs = blip_processor(images=image, return_tensors="pt")
     return generated_caption, audio_path
+@app.route('/generate_caption', methods=['POST'])
+def generate_caption_api():
+    image = request.files['image'].read()
+    generated_caption, audio_path = generate_caption(image)
+    return jsonify({'generated_caption': generated_caption, 'audio_path': audio_path})
+@app.route('/')
+def index():
+    return render_template_string("""
+    <!DOCTYPE html>
+    <html lang="en">
+    <head>
+        <meta charset="UTF-8">
+        <meta name="viewport" content="width=device-width, initial-scale=1.0">
+        <title>Gradio Interface</title>
+    </head>
+    <body>
+        <h1>Gradio Interface</h1>
+        {{ gr_interface|safe }}
+    </body>
+    </html>
+    """, gr_interface=demo.get_interface())
+if __name__ == '__main__':
+    demo = gr.Interface(
+        fn=generate_caption,
+        inputs=gr.Image(),
+        outputs=[
+            gr.Textbox(label="Generated caption"),
+            gr.Button("Convert to Audio"),
+            gr.Audio(type="file", label="Generated Audio")
+        ],
+        live=True
+    )
+    # Start Gradio interface
+    demo.launch(share=True)
+    # Start Flask app
+    app.run(host='0.0.0.0', port=5000)