damerajee
/

GPT-Vision

Vision Language Model

Inference Endpoints

Model card Files Files and versions Community

damerajee commited on Jul 29, 2024

Commit

409b074

·

verified ·

1 Parent(s): 30504b0

Update vision_encoder.py

Files changed (1) hide show

vision_encoder.py +7 -8

vision_encoder.py CHANGED Viewed

@@ -1,11 +1,10 @@
-import torch.nn as nn
-from transformers import  ViTModel
 from torchvision import transforms
-import torch
 import transformers
 transformers.logging.set_verbosity_error()
 class VisionEncoder(nn.Module):
@@ -18,9 +17,9 @@ class VisionEncoder(nn.Module):
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
-    def forward(self, images,device):
-        processed_images = torch.stack([self.image_transform(image) for image in images]).to(device)
         with torch.no_grad():
-            pixel_values = self.vision_model(processed_images)
             image_features = pixel_values.last_hidden_state
-        return image_features

+import torch.nn as nn
+from transformers import ViTModel
 from torchvision import transforms
+import torch
 import transformers
 transformers.logging.set_verbosity_error()
 class VisionEncoder(nn.Module):
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
+    def forward(self, image, device):
+        processed_image = self.image_transform(image).unsqueeze(0).to(device)
         with torch.no_grad():
+            pixel_values = self.vision_model(processed_image)
             image_features = pixel_values.last_hidden_state
+        return image_features