Spaces:

sblumenf
/

pdf-convert

Sleeping

sblumenf commited on Dec 12, 2024

Commit

6544d14

verified ·

1 Parent(s): 2f9a0a2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,9 +6,7 @@ import os
 import io
 from PIL import Image
 import pandas as pd
-import tabula
-import camelot
-from PyPDF2 import PdfReader
 def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
     """
@@ -55,17 +53,12 @@ def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
                         except Exception as e:
                             print(f"Error extracting image: {e}")
-            # Enhanced table extraction (tabula-py preferred, fallback to camelot)
-            try:
-                tables = tabula.read_pdf(pdf_file, pages='all', multiple_tables=True)
-            except Exception as e:
-                print(f"tabula-py failed: {e}. Trying camelot...")
-                try:
-                    camelot_tables = camelot.read_pdf(pdf_file)
-                    for table in camelot_tables:
-                        tables.append(table.df)
-                except Exception as e:
-                    print(f"camelot also failed: {e}. No tables extracted.")
             # Format extracted data based on user selection
             if output_format == "JSON":

 import io
 from PIL import Image
 import pandas as pd
+import pdfplumber
 def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
     """
                         except Exception as e:
                             print(f"Error extracting image: {e}")
+            # Enhanced table extraction using pdfplumber
+            with pdfplumber.open(pdf_file) as pdf:
+                for page_num, page in enumerate(pdf.pages):
+                    for table in page.extract_tables():
+                        df = pd.DataFrame(table[1:], columns=table[0] if table[0] else None)
+                        tables.append(df)
             # Format extracted data based on user selection
             if output_format == "JSON":