damerajee
/

GPT-Vision

Vision Language Model

Inference Endpoints

Model card Files Files and versions Community

damerajee commited on Jul 29, 2024

Commit

049b7aa

·

verified ·

1 Parent(s): e60a5d3

Update modeling_gpt2vision.py

Files changed (1) hide show

modeling_gpt2vision.py +2 -12

modeling_gpt2vision.py CHANGED Viewed

@@ -49,7 +49,7 @@ class GPT2Vision(PreTrainedModel):
         self.tokenizer = tokenizer
         tokenizer.pad_token = tokenizer.eos_token
         self.image_token_id = self.tokenizer.convert_tokens_to_ids(IMAGE_TOKEN)
-        self.img_tokens = 197  # This should match IMG_TOKENS in your training code
     @property
     def device(self):
@@ -61,12 +61,11 @@ class GPT2Vision(PreTrainedModel):
         if isinstance(text, str):
             text = [text]
-        print("text",text)
         text_inputs = self.tokenizer(
             text,
             padding='max_length',
             truncation=True,
-            max_length=768,
             return_tensors="pt",
         ).to(device)
@@ -97,15 +96,6 @@ class GPT2Vision(PreTrainedModel):
         return inputs_embeds, attention_mask
-    def forward(self, batch, **kwargs):
-        inputs_embeds, attention_mask = self.preprocess_inputs(batch)
-        outputs = self.language_model(
-            inputs_embeds=inputs_embeds,
-            attention_mask=attention_mask,
-            **kwargs
-        )
-        return outputs
     def generate(self, question, image, max_new_tokens=30, **kwargs):
         prompt = f"\n\nQuestion: {question}\n\nAnswer:"

         self.tokenizer = tokenizer
         tokenizer.pad_token = tokenizer.eos_token
         self.image_token_id = self.tokenizer.convert_tokens_to_ids(IMAGE_TOKEN)
+        self.img_tokens = 197
     @property
     def device(self):
         if isinstance(text, str):
             text = [text]
         text_inputs = self.tokenizer(
             text,
             padding='max_length',
             truncation=True,
+            max_length=384,
             return_tensors="pt",
         ).to(device)
         return inputs_embeds, attention_mask
     def generate(self, question, image, max_new_tokens=30, **kwargs):
         prompt = f"\n\nQuestion: {question}\n\nAnswer:"