google
/

pix2struct-textcaps-base

Image-to-Text

Transformers

PyTorch

Safetensors

pix2struct

image-text-to-text

Model card Files Files and versions Community

ybelkada commited on Mar 13, 2023

Commit

c7c9c44

1 Parent(s): 0d78262

Update README.md

Browse files

Files changed (1) hide show

README.md +8 -8

README.md CHANGED Viewed

@@ -79,8 +79,8 @@ from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
-model = Pix2StructForConditionalGeneration.from_pretrained("ybelkada/pix2struct-textcaps-base")
-processor = Pix2StructProcessor.from_pretrained("ybelkada/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt")
@@ -101,8 +101,8 @@ from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
-model = Pix2StructForConditionalGeneration.from_pretrained("ybelkada/pix2struct-textcaps-base").to("cuda")
-processor = Pix2StructProcessor.from_pretrained("ybelkada/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt").to("cuda")
@@ -125,8 +125,8 @@ from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor
 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
-model = Pix2StructForConditionalGeneration.from_pretrained("ybelkada/pix2struct-textcaps-base", torch_dtype=torch.bfloat16).to("cuda")
-processor = Pix2StructProcessor.from_pretrained("ybelkada/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt").to("cuda", torch.bfloat16)
@@ -156,8 +156,8 @@ url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
 text = "A picture of"
-model = Pix2StructForConditionalGeneration.from_pretrained("ybelkada/pix2struct-textcaps-base")
-processor = Pix2StructProcessor.from_pretrained("ybelkada/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, text=text, return_tensors="pt")

 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
+model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base")
+processor = Pix2StructProcessor.from_pretrained("google/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt")
 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
+model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base").to("cuda")
+processor = Pix2StructProcessor.from_pretrained("google/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt").to("cuda")
 url = "https://www.ilankelman.org/stopsigns/australia.jpg"
 image = Image.open(requests.get(url, stream=True).raw)
+model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base", torch_dtype=torch.bfloat16).to("cuda")
+processor = Pix2StructProcessor.from_pretrained("google/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, return_tensors="pt").to("cuda", torch.bfloat16)
 image = Image.open(requests.get(url, stream=True).raw)
 text = "A picture of"
+model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base")
+processor = Pix2StructProcessor.from_pretrained("google/pix2struct-textcaps-base")
 # image only
 inputs = processor(images=image, text=text, return_tensors="pt")