pdf_export_tg_bot

Runtime error

App Files Files Community

dmitrynovikov7211 commited on Feb 1

Commit

7de8611

verified ·

1 Parent(s): 259460c

Update app.py

Browse files

Files changed (1) hide show

app.py +88 -46

app.py CHANGED Viewed

@@ -228,53 +228,95 @@ def to_pdf(file_path):
 @app.post("/process_document")
 async def process_document(
-    file: UploadFile = File(...),
-    end_pages: int = 10,
-    is_ocr: bool = False,
-    layout_mode: str = "doclayout_yolo",
-    formula_enable: bool = True,
-    table_enable: bool = False,
-    language: str = "auto"
 ):
-    try:
-        # Сохраняем загруженный файл во временную директорию
-        temp_path = f"/tmp/{file.filename}"
-        with open(temp_path, "wb") as buffer:
-            content = await file.read()
-            buffer.write(content)
-        # Source 4: PyMuPDF (более точный для таблиц и структурированного контента)
-        def extract_text_pymupdf(pdf_path):
-            try:
-                doc = fitz.open(pdf_path)
-                text = ""
-                for page_num in range(min(end_pages, doc.page_count)):
-                    page = doc[page_num]
-                    blocks = page.get_text("blocks")
-                    blocks.sort(key=lambda b: (b[1], b[0]))  # Сортируем блоки по вертикали и горизонтали
-                    for b in blocks:
-                        text += b[4] + "\n"  # Добавляем текст из блока
-                doc.close()
-                return text
-            except Exception as e:
-                return str(e)
-        # Извлекаем текст с помощью PyMuPDF
-        source_4 = extract_text_pymupdf(temp_path) or ""  # Добавляем проверку на пустоту
-        # Удаляем временный файл
-        os.remove(temp_path)
-        # Возвращаем только текст из source_4
-        return JSONResponse({
-            "text": source_4
-        })
-    except Exception as e:
-        return JSONResponse(
-            status_code=500,
-            content={"error": str(e)}
-        )
 # Initialize models
 model_init = init_model()

 @app.post("/process_document")
 async def process_document(
+   file: UploadFile = File(...),
+   end_pages: int = 10,
+   is_ocr: bool = False,
+   layout_mode: str = "doclayout_yolo",
+   formula_enable: bool = True,
+   table_enable: bool = False,
+   language: str = "auto"
 ):
+   try:
+       print(f"\n=== НАЧАЛО ОБРАБОТКИ ДОКУМЕНТА ===")
+       print(f"Имя файла: {file.filename}")
+       print(f"Параметры: end_pages={end_pages}, is_ocr={is_ocr}, language={language}")
+       temp_path = f"/tmp/{file.filename}"
+       try:
+           with open(temp_path, "wb") as buffer:
+               content = await file.read()
+               buffer.write(content)
+           print(f"Файл сохранен: {temp_path}")
+       except Exception as e:
+           print(f"Ошибка при сохранении файла: {str(e)}")
+           raise
+       def extract_text_pymupdf(pdf_path):
+           try:
+               doc = fitz.open(pdf_path)
+               print(f"Открыт PDF, всего страниц: {doc.page_count}")
+               text = ""
+               for page_num in range(min(end_pages, doc.page_count)):
+                   try:
+                       page = doc[page_num]
+                       blocks = page.get_text("blocks")
+                       blocks.sort(key=lambda b: (b[1], b[0]))
+                       for b in blocks:
+                           text += b[4] + "\n"
+                       print(f"Обработана страница {page_num + 1}")
+                   except Exception as page_error:
+                       print(f"Ошибка при обработке страницы {page_num + 1}: {str(page_error)}")
+               doc.close()
+               print(f"Извлечено {len(text)} символов текста")
+               return text
+           except Exception as e:
+               print(f"Ошибка при извлечении текста: {str(e)}")
+               return str(e)
+       source_4 = extract_text_pymupdf(temp_path) or ""
+       print(f"\nРазмер извлеченного текста: {len(source_4)} символов")
+       print(f"Первые 200 символов:\n{source_4[:200]}")
+       try:
+           os.remove(temp_path)
+           print("Временный файл удален")
+       except Exception as e:
+           print(f"Не удалось удалить временный файл: {str(e)}")
+       if not source_4.strip():
+           error_msg = "Не удалось извлечь текст из документа"
+           print(error_msg)
+           return JSONResponse(
+               status_code=422,
+               content={
+                   "error": error_msg,
+                   "details": "Извлеченный текст пуст"
+               }
+           )
+       print("\n=== ВОЗВРАЩАЕМЫЙ JSON ===")
+       response_json = {"text": source_4}
+       print(json.dumps(response_json, indent=2, ensure_ascii=False)[:500] + "...")
+       print("\n=== УСПЕШНОЕ ��АВЕРШЕНИЕ ОБРАБОТКИ ===")
+       return JSONResponse(response_json)
+   except Exception as e:
+       error_msg = f"Критическая ошибка при обработке документа: {str(e)}\nTraceback: {traceback.format_exc()}"
+       print(error_msg)
+       return JSONResponse(
+           status_code=500,
+           content={
+               "error": error_msg,
+               "details": {
+                   "error_type": type(e).__name__,
+                   "error_message": str(e),
+                   "file_name": file.filename if file else None
+               }
+           }
+       )
 # Initialize models
 model_init = init_model()