Spaces:

ADucatez
/

CbCR_to_Excel

Sleeping

App Files Files Community

Aymeric Ducatez commited on Feb 11

Commit

0e91585

1 Parent(s): bc95c0b

Correct one-page mistake + parenthesis columns

Browse files

Files changed (1) hide show

app.py +29 -22

app.py CHANGED Viewed

@@ -10,10 +10,10 @@ from openpyxl.utils.dataframe import dataframe_to_rows
 from openpyxl.styles import numbers
 from openpyxl.worksheet.table import Table, TableStyleInfo
 def extract_pages(pdf_path, start_page, end_page, output_path):
     reader = PdfReader(pdf_path)
     writer = PdfWriter()
     for page_num in range(start_page, end_page + 1):
         if page_num <= len(reader.pages):
             writer.add_page(reader.pages[page_num - 1])
@@ -22,25 +22,28 @@ def extract_pages(pdf_path, start_page, end_page, output_path):
         writer.write(output_pdf_file)
-def reduce_pdf(input_folder,reduced_pdf_folder):
-    if not os.path.exists(reduced_pdf_folder):
-        os.makedirs(reduced_pdf_folder)
-    print(os.listdir(input_folder))
-    for filename in os.listdir(input_folder):
-        print(filename)
         if filename.endswith('.pdf'):
-            match = re.search(r'(\d+)-(\d+)', filename)
             if match:
                 start_page = int(match.group(1))
-                end_page = int(match.group(2))
-                base_name = re.sub(r'_\d+-\d+\.pdf$', '.pdf', filename)
-                pdf_path = os.path.join(input_folder, filename)
                 output_path = os.path.join(reduced_pdf_folder, base_name)
                 extract_pages(pdf_path, start_page, end_page, output_path)
                 print(f'Processed {filename} -> {base_name}')
 def extract_tables_camelot(pdf_path):
     # Extract tables from the PDF file using Camelot
     tables = camelot.read_pdf(pdf_path, pages='all',flavor='stream')
@@ -140,9 +143,10 @@ def clean_and_concatenate_tables(tables):
 def convert_to_excel(reduced_pdf_folder, output_folder):
-    if not os.path.exists(output_folder):
-        os.makedirs(output_folder)
     for filename in os.listdir(reduced_pdf_folder):
         if filename.endswith('.pdf'):
             pdf_path = os.path.join(reduced_pdf_folder, filename)
@@ -153,7 +157,8 @@ def convert_to_excel(reduced_pdf_folder, output_folder):
                 excel_path = os.path.join(output_folder, filename.replace('.pdf', '.xlsx'))
                 for col in concatenated_df.columns:
-                    concatenated_df[col] = concatenated_df[col].apply(convert_to_numeric)
                 wb = openpyxl.Workbook()
                 ws = wb.active
@@ -195,6 +200,7 @@ def convert_to_excel(reduced_pdf_folder, output_folder):
                 print(f'No tables found in {filename}')
     shutil.make_archive(base_name="./output", format='zip', root_dir="./outputs")
 def reduce_and_convert(input_folder):
     reduced_pdf_folder = "./reduced_pdf"
     output_folder = './outputs'
@@ -202,22 +208,23 @@ def reduce_and_convert(input_folder):
     convert_to_excel(reduced_pdf_folder, output_folder)
 def ui(input_files):
     output_zip = "./output.zip"
     if os.path.exists(output_zip):
         os.remove(output_zip)
-    extract_folder = "./input_folder"
-    if os.path.exists(extract_folder):
-        shutil.rmtree(extract_folder)
-    os.makedirs(extract_folder)
     # Move files into the extract_folder
     for file_path in input_files:
         print(file_path)
-        shutil.copy(file_path, extract_folder)
-    reduce_and_convert(extract_folder)
     return output_zip

 from openpyxl.styles import numbers
 from openpyxl.worksheet.table import Table, TableStyleInfo
 def extract_pages(pdf_path, start_page, end_page, output_path):
     reader = PdfReader(pdf_path)
     writer = PdfWriter()
     for page_num in range(start_page, end_page + 1):
         if page_num <= len(reader.pages):
             writer.add_page(reader.pages[page_num - 1])
         writer.write(output_pdf_file)
+def reduce_pdf(pdf_folder,reduced_pdf_folder):
+    if os.path.exists(reduced_pdf_folder):
+        shutil.rmtree(reduced_pdf_folder)
+    os.makedirs(reduced_pdf_folder)
+    for filename in os.listdir(pdf_folder):
         if filename.endswith('.pdf'):
+            match = re.search(r'_CbCR_(\d+)(?:-(\d+))?', filename)
             if match:
                 start_page = int(match.group(1))
+                end_page = int(match.group(2)) if match.group(2) else start_page
+                base_name = re.sub(r'_CbCR_\d+(?:-\d+)?\.pdf$', '_CbCR.pdf', filename)
+                pdf_path = os.path.join(pdf_folder, filename)
                 output_path = os.path.join(reduced_pdf_folder, base_name)
                 extract_pages(pdf_path, start_page, end_page, output_path)
                 print(f'Processed {filename} -> {base_name}')
 def extract_tables_camelot(pdf_path):
     # Extract tables from the PDF file using Camelot
     tables = camelot.read_pdf(pdf_path, pages='all',flavor='stream')
 def convert_to_excel(reduced_pdf_folder, output_folder):
+    if os.path.exists(output_folder):
+        shutil.rmtree(output_folder)
+    os.makedirs(output_folder)
     for filename in os.listdir(reduced_pdf_folder):
         if filename.endswith('.pdf'):
             pdf_path = os.path.join(reduced_pdf_folder, filename)
                 excel_path = os.path.join(output_folder, filename.replace('.pdf', '.xlsx'))
                 for col in concatenated_df.columns:
+                    if any(str(cell).strip() and not str(cell).strip().startswith('(') for cell in concatenated_df[col]):
+                        concatenated_df[col] = concatenated_df[col].apply(convert_to_numeric)
                 wb = openpyxl.Workbook()
                 ws = wb.active
                 print(f'No tables found in {filename}')
     shutil.make_archive(base_name="./output", format='zip', root_dir="./outputs")
 def reduce_and_convert(input_folder):
     reduced_pdf_folder = "./reduced_pdf"
     output_folder = './outputs'
     convert_to_excel(reduced_pdf_folder, output_folder)
 def ui(input_files):
     output_zip = "./output.zip"
     if os.path.exists(output_zip):
         os.remove(output_zip)
+    input_folder = "./input_folder"
+    if os.path.exists(input_folder):
+        shutil.rmtree(input_folder)
+    os.makedirs(input_folder)
     # Move files into the extract_folder
     for file_path in input_files:
         print(file_path)
+        shutil.copy(file_path, input_folder)
+    reduce_and_convert(input_folder)
     return output_zip