VQA_new

Running

MediPlusPlus commited on May 13, 2024

Commit

c0fd6ba

verified ·

1 Parent(s): 0282277

laylm added

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ import librosa
 from PIL import Image
 from torch.nn.utils import rnn
 from gtts import gTTS
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 class LabelClassifier(nn.Module):
@@ -125,15 +125,22 @@ def m3(que, image):
     # sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
     # return processor3.token2json(sequence)['answer']
-    model3 = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-docvqa-large")
-    processor3 = Pix2StructProcessor.from_pretrained("google/pix2struct-docvqa-large")
-    inputs = processor3(images=image, text=que, return_tensors="pt")
-    predictions = model3.generate(**inputs)
-    return processor3.decode(predictions[0], skip_special_tokens=True)

 from PIL import Image
 from torch.nn.utils import rnn
 from gtts import gTTS
+import layoutlm
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 class LabelClassifier(nn.Module):
     # sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
     # return processor3.token2json(sequence)['answer']
+    result = ''
+    if image is None:
+        return "Please select an image", None
+    result = layoutlm.get_result(image, que)
+    return result
+    # model3 = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-docvqa-large")
+    # processor3 = Pix2StructProcessor.from_pretrained("google/pix2struct-docvqa-large")
+    # inputs = processor3(images=image, text=que, return_tensors="pt")
+    # predictions = model3.generate(**inputs)
+    # return processor3.decode(predictions[0], skip_special_tokens=True)