Spaces:

tahirsher
/

Multilingual_Translator-English-Urdu

Sleeping

App Files Files Community

tahirsher commited on Jan 31

Commit

40548f3

verified ·

1 Parent(s): 3eaf646

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -7

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import fitz  # PyMuPDF for PDF processing
 from PIL import Image
 from transformers import pipeline, Blip2Processor, Blip2ForConditionalGeneration
 import streamlit as st
 import os
@@ -7,33 +8,50 @@ import re
 from docx import Document
 from langdetect import detect
-# Load BLIP-2 model and processor for image-to-text
 processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
 model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
-# Load translation model
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-mul-en")
 def extract_text_from_image(image):
-    """Extract text from image using BLIP-2."""
-    # Convert the image to RGB and preprocess
     image = image.convert("RGB")
     inputs = processor(images=image, return_tensors="pt")
-    # Generate text from the image
     generated_ids = model.generate(**inputs)
     decoded_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     return decoded_text.strip()
 def extract_from_pdf(pdf_path):
     doc = fitz.open(pdf_path)
     full_text = ""
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
-        full_text += page.get_text() + "\n"
     return full_text.strip()

 import fitz  # PyMuPDF for PDF processing
 from PIL import Image
+import pytesseract
 from transformers import pipeline, Blip2Processor, Blip2ForConditionalGeneration
 import streamlit as st
 import os
 from docx import Document
 from langdetect import detect
+# Initialize BLIP-2 model and processor for image-to-text
 processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
 model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
+# Initialize translation pipeline
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-mul-en")
+# Path to Tesseract executable for OCR
+pytesseract.pytesseract.tesseract_cmd = "/usr/bin/tesseract"
 def extract_text_from_image(image):
+    """Extract text from image using OCR or BLIP-2."""
+    # First try using BLIP-2
     image = image.convert("RGB")
     inputs = processor(images=image, return_tensors="pt")
     generated_ids = model.generate(**inputs)
     decoded_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    # Fallback to OCR if BLIP-2 extraction fails
+    if not decoded_text.strip():
+        decoded_text = pytesseract.image_to_string(image)
     return decoded_text.strip()
 def extract_from_pdf(pdf_path):
+    """Extract text from PDF by combining direct extraction and OCR fallback."""
     doc = fitz.open(pdf_path)
     full_text = ""
     for page_num in range(len(doc)):
         page = doc.load_page(page_num)
+        # Try extracting text directly
+        text = page.get_text()
+        # If no text, fallback to OCR
+        if not text.strip():
+            pix = page.get_pixmap()
+            image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+            text = extract_text_from_image(image)
+        full_text += text + "\n"
     return full_text.strip()