Spaces:

tahirsher
/

Multilingual_Translator-English-Urdu

Sleeping

tahirsher commited on Jan 31

Commit

3eaf646

verified ·

1 Parent(s): e9de34a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,31 +1,30 @@
 import fitz  # PyMuPDF for PDF processing
 from PIL import Image
-from transformers import pipeline, AutoProcessor, AutoModelForImageTextToText
 import streamlit as st
 import os
 import re
 from docx import Document
 from langdetect import detect
-# Load Qwen model for image-to-text
-processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-3B-Instruct")
-model = AutoModelForImageTextToText.from_pretrained("Qwen/Qwen2.5-VL-3B-Instruct")
 # Load translation model
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-mul-en")
 def extract_text_from_image(image):
-    """Extract text from image using Qwen and TrOCR fallback."""
-    # Convert image to RGB format for processing
     image = image.convert("RGB")
-    # Use Qwen processor and model
-    pixel_values = processor(image, return_tensors="pt").pixel_values
-    result = model.generate(pixel_values)
-    decoded_text = processor.batch_decode(result, skip_special_tokens=True)[0]
-    # Ensure extracted text is clean
     return decoded_text.strip()

 import fitz  # PyMuPDF for PDF processing
 from PIL import Image
+from transformers import pipeline, Blip2Processor, Blip2ForConditionalGeneration
 import streamlit as st
 import os
 import re
 from docx import Document
 from langdetect import detect
+# Load BLIP-2 model and processor for image-to-text
+processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
+model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b")
 # Load translation model
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-mul-en")
 def extract_text_from_image(image):
+    """Extract text from image using BLIP-2."""
+    # Convert the image to RGB and preprocess
     image = image.convert("RGB")
+    inputs = processor(images=image, return_tensors="pt")
+    # Generate text from the image
+    generated_ids = model.generate(**inputs)
+    decoded_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     return decoded_text.strip()