Spaces:

SoumyaJ
/

ATMOrdersExtraction

Sleeping

App Files Files Community

SoumyaJ commited on May 30

Commit

bb9eeeb

verified ·

1 Parent(s): 7417ed0

Update app_forapi.py

Browse files

Files changed (1) hide show

app_forapi.py +58 -55

app_forapi.py CHANGED Viewed

@@ -1,55 +1,58 @@
-import pdfplumber
-import json
-import re
-from fastapi import UploadFile
-mapping_file = "field_mapping.json"
-def load_field_mapping(mapping_file):
-    with open(mapping_file, "r", encoding="utf-8") as f:
-        return json.load(f)
-def extract_fields_from_pdf(file: UploadFile):
-    mapping = load_field_mapping(mapping_file)
-    data = {v: None for v in mapping.values()}
-    numeric_fields = {"AGENCY_DISCOUNT", "TAX_NUMBER"}
-    single_word_fields = {"CAMPAIGN"}
-    with pdfplumber.open(file.file) as pdf:
-        for page in pdf.pages:
-            text = page.extract_text()
-            if not text:
-                continue
-            lines = text.split('\n')
-            for line in lines:
-                line = line.strip()
-                for label, field in mapping.items():
-                    if label in line:
-                        value = line.split(":", 1)[-1].strip()
-                        if field in numeric_fields:
-                            match = re.search(r"\d+%?|\d+(?:[.,]\d+)?", value)
-                            data[field] = match.group() if match else value
-                        elif field in single_word_fields:
-                            data[field] = value.split()[0] if value else value
-                        else:
-                            match = re.search(r'^(.*?\b(?:KFT\.|KFT|ZRT\.|ZRT|BT\.|BT))\b', value, re.IGNORECASE)
-                            if match:
-                                data[field] = match.group(1).strip()
-                            else:
-                                data[field] = value
-    return json.dumps(data, indent=2, ensure_ascii=False)
-# Usage
-#pdf_path = "163900_Suzuki_Rádió Március_megrendelő_R1.pdf"
-#if __name__ == "__main__":
-    #extracted_data = extract_fields_from_pdf(pdf_path, field_mapping)
-    #print(json.dumps(extracted_data, indent=2, ensure_ascii=False))

+import pdfplumber
+import json
+import re
+from fastapi import UploadFile
+mapping_file = "field_mapping.json"
+def load_field_mapping(mapping_file):
+    with open(mapping_file, "r", encoding="utf-8") as f:
+        return json.load(f)
+def extract_fields_from_pdf(file: UploadFile):
+    mapping = load_field_mapping(mapping_file)
+    data = {v: None for v in mapping.values()}
+    numeric_fields = {"AGENCY_DISCOUNT", "TAX_NUMBER"}
+    single_word_fields = {"CAMPAIGN"}
+    with pdfplumber.open(file.file) as pdf:
+        for page in pdf.pages:
+            text = page.extract_text()
+            if not text:
+                continue
+            lines = text.split('\n')
+            for line in lines:
+                line = line.strip()
+                for label, field in mapping.items():
+                    if label in line:
+                        value = line.split(":", 1)[-1].strip()
+                        if field in numeric_fields:
+                            match = re.search(r"\d+%?|\d+(?:[.,]\d+)?", value)
+                            data[field] = match.group() if match else value
+                        elif field in single_word_fields:
+                            data[field] = value.split()[0] if value else value
+                        else:
+                            match = re.search(r'^(.*?\b(?:KFT\.|KFT|ZRT\.|ZRT|BT\.|BT))\b', value, re.IGNORECASE)
+                            if match:
+                                data[field] = match.group(1).strip()
+                            else:
+                                data[field] = value
+                data["STATUS"] = "OK"
+                data["FILENAME"] = file.fileName
+    return json.dumps(data, indent=2, ensure_ascii=False)
+# Usage
+#pdf_path = "163900_Suzuki_Rádió Március_megrendelő_R1.pdf"
+#if __name__ == "__main__":
+    #extracted_data = extract_fields_from_pdf(pdf_path, field_mapping)
+    #print(json.dumps(extracted_data, indent=2, ensure_ascii=False))