Spaces:

sblumenf
/

pdf-convert

Sleeping

App Files Files Community

sblumenf commited on Dec 12, 2024

Commit

e17150e

verified ·

1 Parent(s): ce01472

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -13

app.py CHANGED Viewed

@@ -36,15 +36,15 @@ def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
                     elif isinstance(element, (LTFigure, LTImage)):
                         try:
                             if hasattr(element, 'stream'):
-                                image_data = element.stream.read()
                                 image = Image.open(io.BytesIO(image_data))
                                 image_filename = f"extracted_image_{len(images)}.png"
                                 image.save(image_filename)
                                 images.append({"filename": image_filename})
                             else:
                                 for child in element:
-                                    if isinstance(child, LTImage):
-                                        image_data = child.stream.read()
                                         image = Image.open(io.BytesIO(image_data))
                                         image_filename = f"extracted_image_{len(images)}.png"
                                         image.save(image_filename)
@@ -55,16 +55,19 @@ def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
             with pdfplumber.open(pdf_file) as pdf:
                 for page_num, page in enumerate(pdf.pages):
                     for table in page.extract_tables():
-                        if len(table) > 0 and len(set(table[0])) != len(table[0]):
-                            unique_columns = []
-                            for col in table[0]:
-                                if col in unique_columns:
-                                    col = f"{col}_{unique_columns.count(col)}"
-                                unique_columns.append(col)
-                            df = pd.DataFrame(table[1:], columns=unique_columns)
-                        else:
-                            df = pd.DataFrame(table[1:], columns=table[0] if table[0] else None)
-                        tables.append(df)
             with tempfile.NamedTemporaryFile(mode="w", delete=False, suffix="." + output_format.lower()) as tmp:
                 if output_format == "JSON":

                     elif isinstance(element, (LTFigure, LTImage)):
                         try:
                             if hasattr(element, 'stream'):
+                                image_data = element.stream.get_rawdata()
                                 image = Image.open(io.BytesIO(image_data))
                                 image_filename = f"extracted_image_{len(images)}.png"
                                 image.save(image_filename)
                                 images.append({"filename": image_filename})
                             else:
                                 for child in element:
+                                    if isinstance(child, LTImage) and hasattr(child, 'stream'):
+                                        image_data = child.stream.get_rawdata()
                                         image = Image.open(io.BytesIO(image_data))
                                         image_filename = f"extracted_image_{len(images)}.png"
                                         image.save(image_filename)
             with pdfplumber.open(pdf_file) as pdf:
                 for page_num, page in enumerate(pdf.pages):
                     for table in page.extract_tables():
+                        try:
+                            if len(table) > 0 and len(set(table[0])) != len(table[0]):
+                                unique_columns = []
+                                for col in table[0]:
+                                    if col in unique_columns:
+                                        col = f"{col}_{unique_columns.count(col)}"
+                                    unique_columns.append(col)
+                                df = pd.DataFrame(table[1:], columns=unique_columns)
+                            else:
+                                df = pd.DataFrame(table[1:], columns=table[0] if table[0] else None)
+                            tables.append(df)
+                        except Exception as e:
+                            print(f"Error processing table: {e}")
             with tempfile.NamedTemporaryFile(mode="w", delete=False, suffix="." + output_format.lower()) as tmp:
                 if output_format == "JSON":