pdf_export_tg_bot

Runtime error

App Files Files Community

dmitrynovikov7211 commited on Feb 1

Commit

6b144d5

verified ·

1 Parent(s): 7de8611

Update app.py

Browse files

Files changed (1) hide show

app.py +102 -89

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ from transformers import LayoutLMv3Processor, LayoutLMv3ForSequenceClassificatio
 import torch
 from PIL import Image
 import numpy as np
 # Copyright (c) Opendatalab. All rights reserved.
@@ -52,6 +54,10 @@ from magic_pdf.libs.hash_utils import compute_sha256
 from magic_pdf.tools.common import do_parse, prepare_env
 from loguru import logger
 def read_fn(path):
     disk_rw = FileBasedDataReader(os.path.dirname(path))
     return disk_rw.read(os.path.basename(path))
@@ -228,99 +234,106 @@ def to_pdf(file_path):
 @app.post("/process_document")
 async def process_document(
-   file: UploadFile = File(...),
-   end_pages: int = 10,
-   is_ocr: bool = False,
-   layout_mode: str = "doclayout_yolo",
-   formula_enable: bool = True,
-   table_enable: bool = False,
-   language: str = "auto"
 ):
-   try:
-       print(f"\n=== НАЧАЛО ОБРАБОТКИ ДОКУМЕНТА ===")
-       print(f"Имя файла: {file.filename}")
-       print(f"Параметры: end_pages={end_pages}, is_ocr={is_ocr}, language={language}")
-       temp_path = f"/tmp/{file.filename}"
-       try:
-           with open(temp_path, "wb") as buffer:
-               content = await file.read()
-               buffer.write(content)
-           print(f"Файл сохранен: {temp_path}")
-       except Exception as e:
-           print(f"Ошибка при сохранении файла: {str(e)}")
-           raise
-       def extract_text_pymupdf(pdf_path):
-           try:
-               doc = fitz.open(pdf_path)
-               print(f"Открыт PDF, всего страниц: {doc.page_count}")
-               text = ""
-               for page_num in range(min(end_pages, doc.page_count)):
-                   try:
-                       page = doc[page_num]
-                       blocks = page.get_text("blocks")
-                       blocks.sort(key=lambda b: (b[1], b[0]))
-                       for b in blocks:
-                           text += b[4] + "\n"
-                       print(f"Обработана страница {page_num + 1}")
-                   except Exception as page_error:
-                       print(f"Ошибка при обработке страницы {page_num + 1}: {str(page_error)}")
-               doc.close()
-               print(f"Извлечено {len(text)} символов текста")
-               return text
-           except Exception as e:
-               print(f"Ошибка при извлечении текста: {str(e)}")
-               return str(e)
-       source_4 = extract_text_pymupdf(temp_path) or ""
-       print(f"\nРазмер извлеченного текста: {len(source_4)} символов")
-       print(f"Первые 200 символов:\n{source_4[:200]}")
-       try:
-           os.remove(temp_path)
-           print("Временный файл удален")
-       except Exception as e:
-           print(f"Не удалось удалить временный файл: {str(e)}")
-       if not source_4.strip():
-           error_msg = "Не удалось извлечь текст из документа"
-           print(error_msg)
-           return JSONResponse(
-               status_code=422,
-               content={
-                   "error": error_msg,
-                   "details": "Извлеченный текст пуст"
-               }
-           )
-       print("\n=== ВОЗВРАЩАЕМЫЙ JSON ===")
-       response_json = {"text": source_4}
-       print(json.dumps(response_json, indent=2, ensure_ascii=False)[:500] + "...")
-       print("\n=== УСПЕШНОЕ ЗАВЕРШЕНИЕ ОБРАБОТКИ ===")
-       return JSONResponse(response_json)
-   except Exception as e:
-       error_msg = f"Критическая ошибка при обработке документа: {str(e)}\nTraceback: {traceback.format_exc()}"
-       print(error_msg)
-       return JSONResponse(
-           status_code=500,
-           content={
-               "error": error_msg,
-               "details": {
-                   "error_type": type(e).__name__,
-                   "error_message": str(e),
-                   "file_name": file.filename if file else None
-               }
-           }
-       )
 # Initialize models
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
 if __name__ == "__main__":
-    uvicorn.run(app, host="0.0.0.0", port=7860)

 import torch
 from PIL import Image
 import numpy as np
+import logging
+from fastapi.logger import logger as fastapi_logger
 # Copyright (c) Opendatalab. All rights reserved.
 from magic_pdf.tools.common import do_parse, prepare_env
 from loguru import logger
+# Настраиваем логирование
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger("uvicorn")
 def read_fn(path):
     disk_rw = FileBasedDataReader(os.path.dirname(path))
     return disk_rw.read(os.path.basename(path))
 @app.post("/process_document")
 async def process_document(
+    file: UploadFile = File(...),
+    end_pages: int = 10,
+    is_ocr: bool = False,
+    layout_mode: str = "doclayout_yolo",
+    formula_enable: bool = True,
+    table_enable: bool = False,
+    language: str = "auto"
 ):
+    try:
+        logger.info("\n=== НАЧАЛО ОБРАБОТКИ ДОКУМЕНТА ===")
+        logger.info(f"Имя файла: {file.filename}")
+        logger.info(f"Параметры: end_pages={end_pages}, is_ocr={is_ocr}, language={language}")
+        temp_path = f"/tmp/{file.filename}"
+        try:
+            with open(temp_path, "wb") as buffer:
+                content = await file.read()
+                buffer.write(content)
+            logger.info(f"Файл сохранен: {temp_path}")
+        except Exception as e:
+            logger.error(f"Ошибка при сохранении файла: {str(e)}")
+            raise
+        def extract_text_pymupdf(pdf_path):
+            try:
+                doc = fitz.open(pdf_path)
+                logger.info(f"Открыт PDF, всего страниц: {doc.page_count}")
+                text = ""
+                for page_num in range(min(end_pages, doc.page_count)):
+                    try:
+                        page = doc[page_num]
+                        blocks = page.get_text("blocks")
+                        blocks.sort(key=lambda b: (b[1], b[0]))
+                        for b in blocks:
+                            text += b[4] + "\n"
+                        logger.info(f"Обработана страница {page_num + 1}")
+                    except Exception as page_error:
+                        logger.error(f"Ошибка при обработке страницы {page_num + 1}: {str(page_error)}")
+                doc.close()
+                logger.info(f"Извлечено {len(text)} символов текста")
+                return text
+            except Exception as e:
+                logger.error(f"Ошибка при извлечении текста: {str(e)}")
+                return str(e)
+        source_4 = extract_text_pymupdf(temp_path) or ""
+        logger.info(f"\nРазмер извлеченного текста: {len(source_4)} символов")
+        logger.info(f"Первые 200 символов:\n{source_4[:200]}")
+        try:
+            os.remove(temp_path)
+            logger.info("Временный файл удален")
+        except Exception as e:
+            logger.warning(f"Не удалось удалить временный файл: {str(e)}")
+        if not source_4.strip():
+            error_msg = "Не удалось извлечь текст из документа"
+            logger.error(error_msg)
+            return JSONResponse(
+                status_code=422,
+                content={
+                    "error": error_msg,
+                    "details": "Извлеченный текст пуст"
+                }
+            )
+        logger.info("\n=== ВОЗВРАЩАЕМЫЙ JSON ===")
+        response_json = {"text": source_4}
+        logger.info(json.dumps(response_json, indent=2, ensure_ascii=False)[:500] + "...")
+        logger.info("\n=== УСПЕШНОЕ ЗАВЕРШЕНИЕ ОБРАБОТКИ ===")
+        return JSONResponse(response_json)
+    except Exception as e:
+        error_msg = f"Критическая ошибка при обработке документа: {str(e)}\nTraceback: {traceback.format_exc()}"
+        logger.error(error_msg)
+        return JSONResponse(
+            status_code=500,
+            content={
+                "error": error_msg,
+                "details": {
+                    "error_type": type(e).__name__,
+                    "error_message": str(e),
+                    "file_name": file.filename if file else None
+                }
+            }
+        )
 # Initialize models
 model_init = init_model()
 logger.info(f"model_init: {model_init}")
 if __name__ == "__main__":
+    # Запускаем с включенным выводом логов
+    uvicorn.run(
+        app,
+        host="0.0.0.0",
+        port=7860,
+        log_level="info",
+        access_log=True
+    )