Bingsu
/

clip_text_model_for_masked_lm

clip_text_model

Model card Files Files and versions Community

Bingsu commited on Nov 25, 2022

Commit

bfd9473

·

1 Parent(s): 8a88047

Update modeling_clip_masked_lm.py

Files changed (1) hide show

modeling_clip_masked_lm.py +16 -11

modeling_clip_masked_lm.py CHANGED Viewed

@@ -2,33 +2,38 @@ from typing import Optional, Tuple, Union
 import torch
 from torch import nn
-from transformers import CLIPTextConfig, CLIPTextModel
 from transformers.modeling_outputs import MaskedLMOutput
-from transformers.models.clip.modeling_clip import CLIPPreTrainedModel
 from transformers.models.roberta.modeling_roberta import RobertaLMHead
 class CLIPTextModelForMaskedLM(CLIPPreTrainedModel):
     config_class = CLIPTextConfig
     def __init__(self, config: CLIPTextConfig):
         super().__init__(config)
-        self.clip_text_model = CLIPTextModel(config)
         self.lm_head = RobertaLMHead(config)
         self.post_init()
-    def get_input_embeddings(self):
-        return self.clip_text_model.text_model.embeddings.token_embedding
-    def set_input_embeddings(self, value):
-        self.clip_text_model.text_model.embeddings.token_embedding = value
-    def get_output_embeddings(self):
         return self.lm_head.decoder
-    def set_output_embeddings(self, new_embeddings):
-        self.lm_head.decoder = new_embeddings
     def forward(
         self,
@@ -44,7 +49,7 @@ class CLIPTextModelForMaskedLM(CLIPPreTrainedModel):
             return_dict if return_dict is not None else self.config.use_return_dict
         )
-        outputs = self.clip_text_model(
             input_ids=input_ids,
             attention_mask=attention_mask,
             position_ids=position_ids,

 import torch
 from torch import nn
+from transformers import CLIPTextConfig
 from transformers.modeling_outputs import MaskedLMOutput
+from transformers.models.clip.modeling_clip import (
+    CLIPPreTrainedModel,
+    CLIPTextTransformer,
+)
 from transformers.models.roberta.modeling_roberta import RobertaLMHead
 class CLIPTextModelForMaskedLM(CLIPPreTrainedModel):
     config_class = CLIPTextConfig
+    _no_split_modules = ["CLIPEncoderLayer"]
     def __init__(self, config: CLIPTextConfig):
         super().__init__(config)
+        self.text_model = CLIPTextTransformer(config)
         self.lm_head = RobertaLMHead(config)
         self.post_init()
+    def get_input_embeddings(self) -> nn.Module:
+        return self.text_model.embeddings.token_embedding
+    def set_input_embeddings(self, value: nn.Module) -> None:
+        self.text_model.embeddings.token_embedding = value
+    def get_output_embeddings(self) -> nn.Module:
         return self.lm_head.decoder
+    def set_output_embeddings(self, value: nn.Module) -> None:
+        self.lm_head.decoder = value
     def forward(
         self,
             return_dict if return_dict is not None else self.config.use_return_dict
         )
+        outputs = self.text_model(
             input_ids=input_ids,
             attention_mask=attention_mask,
             position_ids=position_ids,