Spaces:

kryman27
/

pdf-extractor

Running

kryman27 commited on Feb 6

Commit

a5152aa

verified ·

1 Parent(s): b82e672

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -23,15 +23,15 @@ def extract_invoice_data(pdf_file):
             extracted_words = page.extract_words()
             for word in extracted_words:
                 words.append(word['text'])  # Pobieramy tekst słowa
-                bbox = [word['x0'], word['top'], word['x1'], word['bottom']]
                 boxes.append(bbox)  # Pobieramy bounding box (pozycję słowa na stronie)
     # Tokenizacja tekstu + dodanie bounding boxes
-    tokens = tokenizer(words, boxes=boxes, is_split_into_words=True, return_tensors="pt", truncation=True)
     # Predykcja modelu
     with torch.no_grad():
-        outputs = model(**tokens)
     predictions = outputs.logits.argmax(-1).squeeze().tolist()
     # Przetwarzanie wyników

             extracted_words = page.extract_words()
             for word in extracted_words:
                 words.append(word['text'])  # Pobieramy tekst słowa
+                bbox = [int(word['x0']), int(word['top']), int(word['x1']), int(word['bottom'])]  # Zaokrąglamy wartości
                 boxes.append(bbox)  # Pobieramy bounding box (pozycję słowa na stronie)
     # Tokenizacja tekstu + dodanie bounding boxes
+    encoding = tokenizer.encode_plus(words, boxes=boxes, return_tensors="pt", truncation=True)  # Poprawiona linia
     # Predykcja modelu
     with torch.no_grad():
+        outputs = model(**encoding)
     predictions = outputs.logits.argmax(-1).squeeze().tolist()
     # Przetwarzanie wyników