Spaces:

ikraamkb
/

Summarization

Sleeping

App Files Files Community

ikraamkb commited on Apr 11

Commit

c330600

verified ·

1 Parent(s): f94fa3b

sound works now human like answers

Browse files

Files changed (1) hide show

app.py +78 -1

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from fastapi import FastAPI, UploadFile, Form
 from fastapi.responses import RedirectResponse, FileResponse, JSONResponse
 import os
 import shutil
@@ -60,6 +60,83 @@ gui = gr.Interface(
 app = gr.mount_gradio_app(app, gui, path="/")
 @app.get("/")
 def home():
     return RedirectResponse(url="/")

+"""from fastapi import FastAPI, UploadFile, Form
 from fastapi.responses import RedirectResponse, FileResponse, JSONResponse
 import os
 import shutil
 app = gr.mount_gradio_app(app, gui, path="/")
+@app.get("/")
+def home():
+    return RedirectResponse(url="/") """
+from fastapi import FastAPI, UploadFile, Form
+from fastapi.responses import RedirectResponse, FileResponse, JSONResponse
+import os
+import shutil
+from PIL import Image
+from transformers import ViltProcessor, ViltForQuestionAnswering, pipeline
+from gtts import gTTS
+import torch
+import tempfile
+import gradio as gr
+app = FastAPI()
+# Load VQA Model
+vqa_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+vqa_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
+# Load GPT model for rewriting short answers
+gpt_rewriter = pipeline("text-generation", model="EleutherAI/gpt-neo-1.3B")
+def rewrite_answer(question: str, short_answer: str):
+    prompt = f"Q: {question}\nA: {short_answer}\n\nRespond with a full sentence:"
+    try:
+        result = gpt_rewriter(prompt, max_length=50, do_sample=False)
+        full_sentence = result[0]['generated_text'].split("Respond with a full sentence:")[-1].strip()
+        return full_sentence
+    except Exception as e:
+        return short_answer  # fallback
+def answer_question_from_image(image, question):
+    if image is None or not question.strip():
+        return "Please upload an image and ask a question.", None
+    # Process with model
+    inputs = vqa_processor(image, question, return_tensors="pt")
+    with torch.no_grad():
+        outputs = vqa_model(**inputs)
+    predicted_id = outputs.logits.argmax(-1).item()
+    short_answer = vqa_model.config.id2label[predicted_id]
+    # Rewrite short answer using GPT
+    full_answer = rewrite_answer(question, short_answer)
+    # Generate TTS audio
+    try:
+        tts = gTTS(text=full_answer)
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
+            tts.save(tmp.name)
+            audio_path = tmp.name
+    except Exception as e:
+        return f"Answer: {full_answer}\n\n⚠️ Audio generation error: {e}", None
+    return full_answer, audio_path
+def process_image_question(image: Image.Image, question: str):
+    answer, audio_path = answer_question_from_image(image, question)
+    return answer, audio_path
+gui = gr.Interface(
+    fn=process_image_question,
+    inputs=[
+        gr.Image(type="pil", label="Upload Image"),
+        gr.Textbox(lines=2, placeholder="Ask a question about the image...", label="Question")
+    ],
+    outputs=[
+        gr.Textbox(label="Answer", lines=5),
+        gr.Audio(label="Answer (Audio)", type="filepath")
+    ],
+    title="🧠 Image QA with Voice",
+    description="Upload an image and ask a question. You'll get a detailed text + spoken answer."
+)
+app = gr.mount_gradio_app(app, gui, path="/")
 @app.get("/")
 def home():
     return RedirectResponse(url="/")