pdf_export_tg_bot

Runtime error

App Files Files Community

dmitrynovikov2121 commited on Jan 26

Commit

a1ad56a

verified ·

1 Parent(s): 59be4c5

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -54

app.py CHANGED Viewed

@@ -254,17 +254,6 @@ async def process_document(
         )
         source_1 = txt_content
-        # Source 2: PyPDF2
-        def extract_text_from_pdf(doc_path):
-            try:
-                reader = PdfReader(doc_path)
-                text = "\n".join(page.extract_text() for page in reader.pages[:end_pages] if page.extract_text())
-                return text
-            except Exception as e:
-                return str(e)
-        source_2 = extract_text_from_pdf(temp_path)
         # Source 3: PDFMiner
         def extract_text_pdfminer(pdf_path):
             try:
@@ -302,46 +291,6 @@ async def process_document(
         source_4 = extract_text_pymupdf(temp_path)
-        # Source 5: LayoutLMv3 for structured document understanding
-        def extract_text_layoutlm(pdf_path):
-            try:
-                # Initialize LayoutLMv3
-                processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base")
-                model = LayoutLMv3ForSequenceClassification.from_pretrained("microsoft/layoutlmv3-base")
-                # Convert PDF to images
-                doc = fitz.open(pdf_path)
-                text_results = []
-                for page_num in range(min(end_pages, doc.page_count)):
-                    page = doc[page_num]
-                    pix = page.get_pixmap()
-                    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
-                    # Process image through LayoutLMv3
-                    encoding = processor(img, return_tensors="pt")
-                    with torch.no_grad():
-                        outputs = model(**encoding)
-                    # Extract text with layout information
-                    text = page.get_text("dict")
-                    blocks = text["blocks"]
-                    structured_text = ""
-                    for block in blocks:
-                        if "lines" in block:
-                            for line in block["lines"]:
-                                if "spans" in line:
-                                    for span in line["spans"]:
-                                        structured_text += span["text"] + " "
-                    text_results.append(structured_text)
-                doc.close()
-                return "\n".join(text_results)
-            except Exception as e:
-                return str(e)
-        source_5 = extract_text_layoutlm(temp_path)
         # Clean up
         os.remove(temp_path)
@@ -372,10 +321,8 @@ async def process_document(
         validated_sources = validate_results({
             'source_1': source_1,
-            'source_2': source_2,
             'source_3': source_3,
-            'source_4': source_4,
-            'source_5': source_5
         })
         return JSONResponse({

         )
         source_1 = txt_content
         # Source 3: PDFMiner
         def extract_text_pdfminer(pdf_path):
             try:
         source_4 = extract_text_pymupdf(temp_path)
         # Clean up
         os.remove(temp_path)
         validated_sources = validate_results({
             'source_1': source_1,
             'source_3': source_3,
+            'source_4': source_4
         })
         return JSONResponse({