Spaces:

OmidSakaki
/

DocQA_Agent

Sleeping

App Files Files Community

OmidSakaki commited on Jul 2

Commit

5c3f634

verified ·

1 Parent(s): 2d23095

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -33

app.py CHANGED Viewed

@@ -2,16 +2,13 @@ import gradio as gr
 import time
 import numpy as np
 from PIL import Image
-try:
-    from paddleocr import PaddleOCR
-    paddle_ocr = PaddleOCR(lang='fa')  # حذف پارامتر cls
-except ImportError:
-    raise ImportError("لطفا ابتدا paddlepaddle و paddleocr را نصب کنید: pip install paddlepaddle paddleocr")
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
-# Initialize TrOCR
 trocr_processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
 trocr_model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-printed")
@@ -21,10 +18,21 @@ def run_paddleocr(image):
         image = np.array(image)
     try:
-        result = paddle_ocr.ocr(image)  # حذف پارامتر cls
         return ' '.join([line[1][0] for line in result[0]]) if result else ''
     except Exception as e:
-        return f"خطا در PaddleOCR: {str(e)}"
 def run_trocr(image):
     """Run TrOCR on image"""
@@ -36,10 +44,10 @@ def run_trocr(image):
         generated_ids = trocr_model.generate(pixel_values)
         return trocr_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     except Exception as e:
-        return f"خطا در TrOCR: {str(e)}"
 def compare_models(image):
-    """Compare PaddleOCR and TrOCR models"""
     if isinstance(image, np.ndarray):
         image = Image.fromarray(image)
     image = image.convert("RGB")
@@ -52,56 +60,70 @@ def compare_models(image):
     results['PaddleOCR'] = run_paddleocr(image)
     times['PaddleOCR'] = time.time() - start
     # Run TrOCR
     start = time.time()
     results['TrOCR'] = run_trocr(image)
     times['TrOCR'] = time.time() - start
     comparison = f"""
-    <table style="width:100%">
         <tr>
-            <th style="text-align:center">مدل</th>
-            <th style="text-align:center">متن استخراج شده</th>
-            <th style="text-align:center">زمان پردازش (ثانیه)</th>
         </tr>
         <tr>
-            <td style="text-align:center">PaddleOCR</td>
-            <td style="text-align:right; direction:rtl">{results['PaddleOCR']}</td>
-            <td style="text-align:center">{times['PaddleOCR']:.3f}</td>
         </tr>
         <tr>
-            <td style="text-align:center">TrOCR</td>
-            <td style="text-align:right; direction:rtl">{results['TrOCR']}</td>
-            <td style="text-align:center">{times['TrOCR']:.3f}</td>
         </tr>
     </table>
     """
-    return comparison, results['PaddleOCR'], results['TrOCR']
 # Create Gradio interface
-with gr.Blocks(title="مقایسه مدل‌های OCR فارسی") as demo:
     gr.Markdown("""
-    ## مقایسه عملکرد مدل‌های OCR ب��ای زبان فارسی
-    این برنامه دو مدل مختلف OCR را روی تصاویر فارسی مقایسه می‌کند:
     1. PaddleOCR
-    2. TrOCR (مایکروسافت)
     """)
     with gr.Row():
         with gr.Column():
-            image_input = gr.Image(label="تصویر ورودی", type="pil")
-            submit_btn = gr.Button("مقایسه مدل‌ها", variant="primary")
         with gr.Column():
-            comparison_output = gr.HTML(label="نتایج مقایسه")
-            paddle_output = gr.Textbox(label="PaddleOCR")
-            trocr_output = gr.Textbox(label="TrOCR")
     submit_btn.click(
         fn=compare_models,
         inputs=image_input,
-        outputs=[comparison_output, paddle_output, trocr_output]
     )
 if __name__ == "__main__":

 import time
 import numpy as np
 from PIL import Image
+from paddleocr import PaddleOCR
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
+import easyocr
+# Initialize models
+paddle_ocr = PaddleOCR(lang='en')  # PaddleOCR برای انگلیسی
+easy_ocr = easyocr.Reader(['en'])  # EasyOCR برای انگلیسی
 trocr_processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-printed")
 trocr_model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-printed")
         image = np.array(image)
     try:
+        result = paddle_ocr.ocr(image)
         return ' '.join([line[1][0] for line in result[0]]) if result else ''
     except Exception as e:
+        return f"PaddleOCR Error: {str(e)}"
+def run_easyocr(image):
+    """Run EasyOCR on image"""
+    if isinstance(image, Image.Image):
+        image = np.array(image)
+    try:
+        result = easy_ocr.readtext(image, detail=0)
+        return ' '.join(result) if result else ''
+    except Exception as e:
+        return f"EasyOCR Error: {str(e)}"
 def run_trocr(image):
     """Run TrOCR on image"""
         generated_ids = trocr_model.generate(pixel_values)
         return trocr_processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
     except Exception as e:
+        return f"TrOCR Error: {str(e)}"
 def compare_models(image):
+    """Compare all three OCR models"""
     if isinstance(image, np.ndarray):
         image = Image.fromarray(image)
     image = image.convert("RGB")
     results['PaddleOCR'] = run_paddleocr(image)
     times['PaddleOCR'] = time.time() - start
+    # Run EasyOCR
+    start = time.time()
+    results['EasyOCR'] = run_easyocr(image)
+    times['EasyOCR'] = time.time() - start
     # Run TrOCR
     start = time.time()
     results['TrOCR'] = run_trocr(image)
     times['TrOCR'] = time.time() - start
+    # Create comparison table
     comparison = f"""
+    <table style="width:100%; border-collapse: collapse;">
+        <tr style="background-color: #f2f2f2;">
+            <th style="padding: 8px; border: 1px solid #ddd; text-align: center;">Model</th>
+            <th style="padding: 8px; border: 1px solid #ddd; text-align: center;">Extracted Text</th>
+            <th style="padding: 8px; border: 1px solid #ddd; text-align: center;">Processing Time (s)</th>
+        </tr>
         <tr>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">PaddleOCR</td>
+            <td style="padding: 8px; border: 1px solid #ddd;">{results['PaddleOCR']}</td>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">{times['PaddleOCR']:.3f}</td>
         </tr>
         <tr>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">EasyOCR</td>
+            <td style="padding: 8px; border: 1px solid #ddd;">{results['EasyOCR']}</td>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">{times['EasyOCR']:.3f}</td>
         </tr>
         <tr>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">TrOCR</td>
+            <td style="padding: 8px; border: 1px solid #ddd;">{results['TrOCR']}</td>
+            <td style="padding: 8px; border: 1px solid #ddd; text-align: center;">{times['TrOCR']:.3f}</td>
         </tr>
     </table>
     """
+    return comparison, results['PaddleOCR'], results['EasyOCR'], results['TrOCR']
 # Create Gradio interface
+with gr.Blocks(title="English OCR Comparison Tool") as demo:
     gr.Markdown("""
+    ## English OCR Models Comparison
+    This tool compares three OCR models for English text:
     1. PaddleOCR
+    2. EasyOCR
+    3. TrOCR (Microsoft)
     """)
     with gr.Row():
         with gr.Column():
+            image_input = gr.Image(label="Input Image", type="pil")
+            submit_btn = gr.Button("Compare Models", variant="primary")
         with gr.Column():
+            comparison_output = gr.HTML(label="Comparison Results")
+            with gr.Accordion("Individual Results", open=False):
+                paddle_output = gr.Textbox(label="PaddleOCR Result")
+                easy_output = gr.Textbox(label="EasyOCR Result")
+                trocr_output = gr.Textbox(label="TrOCR Result")
     submit_btn.click(
         fn=compare_models,
         inputs=image_input,
+        outputs=[comparison_output, paddle_output, easy_output, trocr_output]
     )
 if __name__ == "__main__":