microsoft
/

Magma-8B

Image-Text-to-Text

Transformers

Safetensors

magma

text-generation

conversational

Model card Files Files and versions Community

jw2yang commited on Feb 23

Commit

0583f08

1 Parent(s): 3fe01ed

update

Browse files

Files changed (1) hide show

modeling_magma.py +4 -4

modeling_magma.py CHANGED Viewed

@@ -680,7 +680,7 @@ class MagmaForForCausalLM(MagmaPreTrainedModel):
                             pixel_values_for_image = pixel_values_for_image.permute(2, 0, 3, 1, 4).flatten(3, 4).flatten(1, 2).unsqueeze(0)
                             image_features = self.vision_tower(pixel_values_for_image)
                             selected_image_feature = image_features[vision_feature_layer][0].permute(1, 2, 0)
-                            selected_image_feature = self.multi_modal_projector((selected_image_feature, None))
                             selected_image_feature = torch.cat((selected_image_feature, self.multi_modal_projector.row_seperator.repeat(selected_image_feature.shape[0],1,1)), dim=1)
                             selected_image_features.append(selected_image_feature.flatten(0, 1))
                 elif self.config.vision_config['img_anyres_strategy'] == "crop":
@@ -690,7 +690,7 @@ class MagmaForForCausalLM(MagmaPreTrainedModel):
                     _pixel_values_list_temp = sum(_pixel_values_list, ())
                     _pixel_values_list_temp = torch.cat(_pixel_values_list_temp, dim=0)
                     image_features = self.vision_tower(_pixel_values_list_temp)[vision_feature_layer].permute(0, 2, 3, 1)
-                    image_features = self.multi_modal_projector((image_features, None))
                     num_crops_list = [_image_size[0]*_image_size[1] for _image_size in _image_sizes_list_temp]
                     image_features_split = torch.split(image_features, num_crops_list, dim=0)
@@ -1281,12 +1281,12 @@ class MagmaForConditionalGeneration(MagmaPreTrainedModel):
                         pixel_values_for_image = pixel_values_for_image.permute(2, 0, 3, 1, 4).flatten(3, 4).flatten(1, 2).unsqueeze(0)
                         image_features = self.vision_tower(pixel_values_for_image)
                         selected_image_feature = image_features[vision_feature_layer][0].permute(1, 2, 0)
-                        selected_image_feature = self.multi_modal_projector((selected_image_feature, None))
                         selected_image_feature = torch.cat((selected_image_feature, self.multi_modal_projector.row_seperator.repeat(selected_image_feature.shape[0],1,1)), dim=1)
                         selected_image_features.append(selected_image_feature)
                 elif self.config.vision_config['img_anyres_strategy'] == "crop":
                     image_features = self.vision_tower(pixel_values)[vision_feature_layer].permute(0, 2, 3, 1)
-                    image_features = self.multi_modal_projector((image_features, None))
                     num_patches_for_images = [(imsize[0]*imsize[1]).item() for imsize in image_sizes]
                     image_features_split = torch.split(image_features, num_patches_for_images, dim=0)
                     selected_image_features = []

                             pixel_values_for_image = pixel_values_for_image.permute(2, 0, 3, 1, 4).flatten(3, 4).flatten(1, 2).unsqueeze(0)
                             image_features = self.vision_tower(pixel_values_for_image)
                             selected_image_feature = image_features[vision_feature_layer][0].permute(1, 2, 0)
+                            selected_image_feature = self.multi_modal_projector(selected_image_feature)
                             selected_image_feature = torch.cat((selected_image_feature, self.multi_modal_projector.row_seperator.repeat(selected_image_feature.shape[0],1,1)), dim=1)
                             selected_image_features.append(selected_image_feature.flatten(0, 1))
                 elif self.config.vision_config['img_anyres_strategy'] == "crop":
                     _pixel_values_list_temp = sum(_pixel_values_list, ())
                     _pixel_values_list_temp = torch.cat(_pixel_values_list_temp, dim=0)
                     image_features = self.vision_tower(_pixel_values_list_temp)[vision_feature_layer].permute(0, 2, 3, 1)
+                    image_features = self.multi_modal_projector(image_features)
                     num_crops_list = [_image_size[0]*_image_size[1] for _image_size in _image_sizes_list_temp]
                     image_features_split = torch.split(image_features, num_crops_list, dim=0)
                         pixel_values_for_image = pixel_values_for_image.permute(2, 0, 3, 1, 4).flatten(3, 4).flatten(1, 2).unsqueeze(0)
                         image_features = self.vision_tower(pixel_values_for_image)
                         selected_image_feature = image_features[vision_feature_layer][0].permute(1, 2, 0)
+                        selected_image_feature = self.multi_modal_projector(selected_image_feature)
                         selected_image_feature = torch.cat((selected_image_feature, self.multi_modal_projector.row_seperator.repeat(selected_image_feature.shape[0],1,1)), dim=1)
                         selected_image_features.append(selected_image_feature)
                 elif self.config.vision_config['img_anyres_strategy'] == "crop":
                     image_features = self.vision_tower(pixel_values)[vision_feature_layer].permute(0, 2, 3, 1)
+                    image_features = self.multi_modal_projector(image_features)
                     num_patches_for_images = [(imsize[0]*imsize[1]).item() for imsize in image_sizes]
                     image_features_split = torch.split(image_features, num_patches_for_images, dim=0)
                     selected_image_features = []