Spaces:

Jobey1
/

Convert-PDF-To-Parquet-With-paragraph-markers

Sleeping

App Files Files Community

Jobey1 commited on Feb 26

Commit

09053ce

verified ·

1 Parent(s): c8cd30b

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -7

app.py CHANGED Viewed

@@ -154,22 +154,20 @@ def upload_with_progress(file_path, repo_id, token, progress):
         print(f"❌ Unexpected error: {e}")
         return f"❌ Unexpected error: {str(e)}"
-def pdf_to_parquet_and_upload(pdf_files, hf_token, dataset_repo_id, action_choice, progress=gr.Progress()):
     all_data = []
     total_files = len(pdf_files)
     print("🚀 Starting PDF to Parquet Conversion Process")
     for idx, pdf_file in enumerate(pdf_files):
-        if progress is not None:
             progress(idx / total_files, desc=f"Processing File {idx + 1}/{total_files}")
-        # ✅ Step 1: Process PDF with Full Labels
         extracted_data = extract_full_paper_with_labels(pdf_file.name, progress=progress)
         all_data.append(extracted_data)
     print("🟡 Converting Processed Data to Parquet")
-    # ✅ Step 2: Convert to Parquet
     df = pd.DataFrame(all_data)
     parquet_file = 'fully_labeled_papers.parquet'
@@ -178,11 +176,11 @@ def pdf_to_parquet_and_upload(pdf_files, hf_token, dataset_repo_id, action_choic
         print("✅ Parquet Conversion Completed")
     except Exception as e:
         print(f"❌ Parquet Conversion Failed: {str(e)}")
-        return None, f"❌ Parquet Conversion Failed: {str(e)}"
     upload_message = "Skipped Upload"
-    # ✅ Step 3: Upload Parquet (if selected)
     if action_choice in ["Upload to Hugging Face", "Both"]:
         try:
             upload_message = upload_with_progress(parquet_file, dataset_repo_id, hf_token, progress)
@@ -191,7 +189,13 @@ def pdf_to_parquet_and_upload(pdf_files, hf_token, dataset_repo_id, action_choic
             upload_message = f"❌ Upload failed: {str(e)}"
     print("🏁 Process Completed")
-    return parquet_file, upload_message
 # ✅ Gradio Interface
 iface = gr.Interface(

         print(f"❌ Unexpected error: {e}")
         return f"❌ Unexpected error: {str(e)}"
+def pdf_to_parquet_and_upload(pdf_files, hf_token, dataset_repo_id, action_choice, state, progress=gr.Progress()):
     all_data = []
     total_files = len(pdf_files)
     print("🚀 Starting PDF to Parquet Conversion Process")
     for idx, pdf_file in enumerate(pdf_files):
+        if progress:
             progress(idx / total_files, desc=f"Processing File {idx + 1}/{total_files}")
         extracted_data = extract_full_paper_with_labels(pdf_file.name, progress=progress)
         all_data.append(extracted_data)
     print("🟡 Converting Processed Data to Parquet")
     df = pd.DataFrame(all_data)
     parquet_file = 'fully_labeled_papers.parquet'
         print("✅ Parquet Conversion Completed")
     except Exception as e:
         print(f"❌ Parquet Conversion Failed: {str(e)}")
+        return None, f"❌ Parquet Conversion Failed: {str(e)}", state
     upload_message = "Skipped Upload"
+    # ✅ Upload Parquet if selected
     if action_choice in ["Upload to Hugging Face", "Both"]:
         try:
             upload_message = upload_with_progress(parquet_file, dataset_repo_id, hf_token, progress)
             upload_message = f"❌ Upload failed: {str(e)}"
     print("🏁 Process Completed")
+    # ✅ Clear Uploaded PDFs and Parquet File
+    if os.path.exists(parquet_file):
+        os.remove(parquet_file)
+        print("🗑️ Parquet file cleared after processing.")
+    return None, upload_message, state
 # ✅ Gradio Interface
 iface = gr.Interface(