Spaces:

OmidSakaki
/

DocQA_Agent

Sleeping

App Files Files Community

OmidSakaki commited on Jul 2

Commit

24f0403

verified ·

1 Parent(s): e96a8df

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -38

app.py CHANGED Viewed

@@ -1,10 +1,9 @@
 import gradio as gr
 import time
 from PIL import Image
 from paddleocr import PaddleOCR
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
-import pytesseract
-import numpy as np
 # Initialize models
 paddle_ocr = PaddleOCR(lang='fa', use_textline_orientation=True)
@@ -13,99 +12,90 @@ trocr_model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-pr
 def run_paddleocr(image):
     """Run PaddleOCR on image"""
-    image_path = "temp.jpg"
-    image.save(image_path)
-    result = paddle_ocr.ocr(image_path, cls=True)
     text = ' '.join([line[1][0] for line in result[0]]) if result else ''
     return text
 def run_trocr(image):
     """Run TrOCR on image"""
     pixel_values = trocr_processor(image, return_tensors="pt").pixel_values
     generated_ids = trocr_model.generate(pixel_values)
     return trocr_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
-def run_tesseract(image):
-    """Run Tesseract OCR on image"""
-    return pytesseract.image_to_string(image, lang='fas')
 def compare_models(image):
-    """Compare all three OCR models"""
     # Convert to RGB if needed
     if isinstance(image, np.ndarray):
         image = Image.fromarray(image)
     image = image.convert("RGB")
     results = {}
     # Run PaddleOCR
     start = time.time()
     results['PaddleOCR'] = run_paddleocr(image)
-    paddle_time = time.time() - start
     # Run TrOCR
     start = time.time()
     results['TrOCR'] = run_trocr(image)
-    trocr_time = time.time() - start
-    # Run Tesseract
-    start = time.time()
-    results['Tesseract'] = run_tesseract(image)
-    tesseract_time = time.time() - start
     # Create comparison table
     comparison = f"""
-    <table>
-        <tr>
-            <th>مدل</th>
-            <th>متن استخراج شده</th>
-            <th>زمان پردازش (ثانیه)</th>
-        </tr>
         <tr>
-            <td>PaddleOCR</td>
-            <td>{results['PaddleOCR']}</td>
-            <td>{paddle_time:.2f}</td>
         </tr>
         <tr>
-            <td>TrOCR</td>
-            <td>{results['TrOCR']}</td>
-            <td>{trocr_time:.2f}</td>
         </tr>
         <tr>
-            <td>Tesseract</td>
-            <td>{results['Tesseract']}</td>
-            <td>{tesseract_time:.2f}</td>
         </tr>
     </table>
     """
-    return comparison, results['PaddleOCR'], results['TrOCR'], results['Tesseract']
 # Create Gradio interface
 with gr.Blocks(title="مقایسه مدل‌های OCR فارسی") as demo:
     gr.Markdown("""
     ## مقایسه عملکرد مدل‌های OCR برای زبان فارسی
-    این برنامه سه مدل مختلف OCR را روی تصاویر فارسی مقایسه می‌کند:
     1. PaddleOCR
     2. TrOCR (مایکروسافت)
-    3. Tesseract OCR
     """)
     with gr.Row():
         with gr.Column():
             image_input = gr.Image(label="تصویر ورودی", type="pil")
-            submit_btn = gr.Button("مقایسه مدل‌ها")
         with gr.Column():
             comparison_output = gr.HTML(label="نتایج مقایسه")
             paddle_output = gr.Textbox(label="PaddleOCR")
             trocr_output = gr.Textbox(label="TrOCR")
-            tesseract_output = gr.Textbox(label="Tesseract")
     submit_btn.click(
         fn=compare_models,
         inputs=image_input,
-        outputs=[comparison_output, paddle_output, trocr_output, tesseract_output]
     )
 if __name__ == "__main__":

 import gradio as gr
 import time
+import numpy as np
 from PIL import Image
 from paddleocr import PaddleOCR
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 # Initialize models
 paddle_ocr = PaddleOCR(lang='fa', use_textline_orientation=True)
 def run_paddleocr(image):
     """Run PaddleOCR on image"""
+    # Convert to numpy array if needed
+    if isinstance(image, Image.Image):
+        image = np.array(image)
+    result = paddle_ocr.ocr(image, cls=True)
     text = ' '.join([line[1][0] for line in result[0]]) if result else ''
     return text
 def run_trocr(image):
     """Run TrOCR on image"""
+    # Convert to PIL Image if needed
+    if isinstance(image, np.ndarray):
+        image = Image.fromarray(image)
     pixel_values = trocr_processor(image, return_tensors="pt").pixel_values
     generated_ids = trocr_model.generate(pixel_values)
     return trocr_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
 def compare_models(image):
+    """Compare PaddleOCR and TrOCR models"""
     # Convert to RGB if needed
     if isinstance(image, np.ndarray):
         image = Image.fromarray(image)
     image = image.convert("RGB")
     results = {}
+    times = {}
     # Run PaddleOCR
     start = time.time()
     results['PaddleOCR'] = run_paddleocr(image)
+    times['PaddleOCR'] = time.time() - start
     # Run TrOCR
     start = time.time()
     results['TrOCR'] = run_trocr(image)
+    times['TrOCR'] = time.time() - start
     # Create comparison table
     comparison = f"""
+    <table style="width:100%">
         <tr>
+            <th style="text-align:center">مدل</th>
+            <th style="text-align:center">متن استخراج شده</th>
+            <th style="text-align:center">زمان پردازش (ثانیه)</th>
         </tr>
         <tr>
+            <td style="text-align:center">PaddleOCR</td>
+            <td style="text-align:right; direction:rtl">{results['PaddleOCR']}</td>
+            <td style="text-align:center">{times['PaddleOCR']:.3f}</td>
         </tr>
         <tr>
+            <td style="text-align:center">TrOCR</td>
+            <td style="text-align:right; direction:rtl">{results['TrOCR']}</td>
+            <td style="text-align:center">{times['TrOCR']:.3f}</td>
         </tr>
     </table>
     """
+    return comparison, results['PaddleOCR'], results['TrOCR']
 # Create Gradio interface
 with gr.Blocks(title="مقایسه مدل‌های OCR فارسی") as demo:
     gr.Markdown("""
     ## مقایسه عملکرد مدل‌های OCR برای زبان فارسی
+    این برنامه دو مدل مختلف OCR را روی تصاویر فارسی مقایسه می‌کند:
     1. PaddleOCR
     2. TrOCR (مایکروسافت)
     """)
     with gr.Row():
         with gr.Column():
             image_input = gr.Image(label="تصویر ورودی", type="pil")
+            submit_btn = gr.Button("مقایسه مدل‌ها", variant="primary")
         with gr.Column():
             comparison_output = gr.HTML(label="نتایج مقایسه")
             paddle_output = gr.Textbox(label="PaddleOCR")
             trocr_output = gr.Textbox(label="TrOCR")
     submit_btn.click(
         fn=compare_models,
         inputs=image_input,
+        outputs=[comparison_output, paddle_output, trocr_output]
     )
 if __name__ == "__main__":