Spaces:

ikraamkb
/

Summarization

Sleeping

App Files Files Community

ikraamkb commited on Apr 8

Commit

12d05c0

verified ·

1 Parent(s): 653c3ae

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -32

app.py CHANGED Viewed

@@ -16,31 +16,25 @@ image_captioner = pipeline("image-to-text", model="nlpconnect/vit-gpt2-image-cap
 app = FastAPI()
 # -------------------------
-# File Text Extractors
 # -------------------------
-def extract_text_from_pdf(file):
     try:
-        file.seek(0)
-        data = file.read()
         with fitz.open(stream=data, filetype="pdf") as doc:
             return "\n".join([page.get_text() for page in doc])
     except Exception as e:
         return f"❌ PDF error: {e}"
-def extract_text_from_docx(file):
     try:
-        file.seek(0)
-        data = file.read()
         doc = docx.Document(io.BytesIO(data))
         return "\n".join(p.text for p in doc.paragraphs if p.text.strip())
     except Exception as e:
         return f"❌ DOCX error: {e}"
-def extract_text_from_pptx(file):
     try:
-        file.seek(0)
-        data = file.read()
         prs = pptx.Presentation(io.BytesIO(data))
         text = []
         for slide in prs.slides:
@@ -51,10 +45,8 @@ def extract_text_from_pptx(file):
     except Exception as e:
         return f"❌ PPTX error: {e}"
-def extract_text_from_xlsx(file):
     try:
-        file.seek(0)
-        data = file.read()
         wb = openpyxl.load_workbook(io.BytesIO(data))
         text = []
         for sheet in wb.sheetnames:
@@ -71,27 +63,29 @@ def extract_text_from_xlsx(file):
 # -------------------------
 def summarize_document(file):
-    filename = file.name.lower()
-    if filename.endswith(".pdf"):
-        text = extract_text_from_pdf(file)
-    elif filename.endswith(".docx"):
-        text = extract_text_from_docx(file)
-    elif filename.endswith(".pptx"):
-        text = extract_text_from_pptx(file)
-    elif filename.endswith(".xlsx"):
-        text = extract_text_from_xlsx(file)
-    else:
-        return "❌ Unsupported file format."
-    if not text.strip():
-        return "❗ No extractable text."
     try:
         summary = summarizer(text[:3000], max_length=150, min_length=30, do_sample=False)
         return f"📄 Summary:\n{summary[0]['summary_text']}"
     except Exception as e:
-        return f"⚠️ Summarization error: {e}"
 def interpret_image(image):
     try:
@@ -114,11 +108,11 @@ img_caption = gr.Interface(
     fn=interpret_image,
     inputs=gr.Image(type="pil", label="Upload an Image"),
     outputs="text",
-    title="🖼️ Image Captioning"
 )
 # -------------------------
-# Launch via FastAPI
 # -------------------------
 demo = gr.TabbedInterface([doc_summary, img_caption], ["Document Summary", "Image Captioning"])

 app = FastAPI()
 # -------------------------
+# Extraction Functions
 # -------------------------
+def extract_text_from_pdf(data: bytes):
     try:
         with fitz.open(stream=data, filetype="pdf") as doc:
             return "\n".join([page.get_text() for page in doc])
     except Exception as e:
         return f"❌ PDF error: {e}"
+def extract_text_from_docx(data: bytes):
     try:
         doc = docx.Document(io.BytesIO(data))
         return "\n".join(p.text for p in doc.paragraphs if p.text.strip())
     except Exception as e:
         return f"❌ DOCX error: {e}"
+def extract_text_from_pptx(data: bytes):
     try:
         prs = pptx.Presentation(io.BytesIO(data))
         text = []
         for slide in prs.slides:
     except Exception as e:
         return f"❌ PPTX error: {e}"
+def extract_text_from_xlsx(data: bytes):
     try:
         wb = openpyxl.load_workbook(io.BytesIO(data))
         text = []
         for sheet in wb.sheetnames:
 # -------------------------
 def summarize_document(file):
     try:
+        filename = file.name.lower()
+        data = file.read()
+        if filename.endswith(".pdf"):
+            text = extract_text_from_pdf(data)
+        elif filename.endswith(".docx"):
+            text = extract_text_from_docx(data)
+        elif filename.endswith(".pptx"):
+            text = extract_text_from_pptx(data)
+        elif filename.endswith(".xlsx"):
+            text = extract_text_from_xlsx(data)
+        else:
+            return "❌ Unsupported file format."
+        if not isinstance(text, str) or not text.strip():
+            return "❗ No extractable text."
         summary = summarizer(text[:3000], max_length=150, min_length=30, do_sample=False)
         return f"📄 Summary:\n{summary[0]['summary_text']}"
     except Exception as e:
+        return f"⚠️ Unexpected error: {e}"
 def interpret_image(image):
     try:
     fn=interpret_image,
     inputs=gr.Image(type="pil", label="Upload an Image"),
     outputs="text",
+    title="🖼️ Image Interpreter"
 )
 # -------------------------
+# FastAPI + Gradio Mount
 # -------------------------
 demo = gr.TabbedInterface([doc_summary, img_caption], ["Document Summary", "Image Captioning"])