Spaces:

burhan112
/

Multimodal_Ask-the-Image_Mini-App

Sleeping

burhan112 commited on May 1

Commit

7983775

verified ·

1 Parent(s): ae6da0c

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+from PIL import Image
+from asr import transcribe_audio
+from qa import get_image_answer
+from tts import text_to_speech
+def multimodal_qa_app(image: Image.Image, audio_path: str):
+    question_text = transcribe_audio(audio_path)
+    answer = get_image_answer(image, question_text)
+    audio_response = text_to_speech(answer)
+    return answer, audio_response
+interface = gr.Interface(
+    fn=multimodal_qa_app,
+    inputs=[
+        gr.Image(type="pil", label="Upload an Image"),
+        gr.Audio(type="filepath", label="Ask a Question via Mic (10s max)")
+    ],
+    outputs=[
+        gr.Textbox(label="Answer"),
+        gr.Audio(label="Spoken Answer")
+    ],
+    title="Ask-the-Image: Multimodal QA",
+    description="Upload an image and ask a question using your voice. The app answers and reads it out loud."
+)
+if __name__ == "__main__":
+    interface.launch(debug=True)