VQA_Model_Original

Runtime error

MediPlusPlus commited on May 12, 2024

Commit

836e26d

verified ·

1 Parent(s): 5b02197

update text input

Files changed (1) hide show

app.py CHANGED Viewed

@@ -226,17 +226,17 @@ def predict_category(que, input_image):
     return preds[0]
-def combine(audio, input_image):
-    que = transcribe_audio(audio)
-    # que = "What is the animal here?"
     image = Image.fromarray(input_image).convert('RGB')
     category = predict_category(que, image)
     answer = predict_answer(0, que, image)
-    # print(category)
     tts = gTTS(answer)
     tts.save('answer.mp3')
     return que, answer, 'answer.mp3'
@@ -244,7 +244,14 @@ def combine(audio, input_image):
 # Define the Gradio interface for recording audio and displaying the transcription
-model_interface = gr.Interface(fn=combine, inputs=[gr.Microphone(label="Ask your question"),gr.Image(label="Upload the image")], outputs=[gr.Text(label="Transcribed Question"), gr.Text(label="Answer"), gr.Audio(label="Audio Answer")])
 # image_upload_interface = gr.Interface(fn=upload_image, inputs=gr.Image(label="Upload the image"), outputs="text")
 # Launch the Gradio interface

     return preds[0]
+def combine(question, audio, input_image):
+    if question:
+        que = question
+    else:
+        que = transcribe_audio(audio)
     image = Image.fromarray(input_image).convert('RGB')
     category = predict_category(que, image)
     answer = predict_answer(0, que, image)
     tts = gTTS(answer)
     tts.save('answer.mp3')
     return que, answer, 'answer.mp3'
 # Define the Gradio interface for recording audio and displaying the transcription
+model_interface = gr.Interface(fn=combine,
+                               inputs=[gr.TextInput(label="Text Question"),
+                                       gr.Microphone(label="Audio Question"),
+                                       gr.Image(label="Upload the image")],
+                               outputs=[gr.Text(label="Transcribed Question"),
+                                        gr.Text(label="Answer"),
+                                        gr.Audio(label="Audio Answer")])
 # image_upload_interface = gr.Interface(fn=upload_image, inputs=gr.Image(label="Upload the image"), outputs="text")
 # Launch the Gradio interface