stanrom
/

ShareCaptioner

@@ -70,12 +70,13 @@ class InternLMXComposerTokenizer(PreTrainedTokenizer):
             pad_token=pad_token,
             clean_up_tokenization_spaces=clean_up_tokenization_spaces,
             **kwargs,
         )
         self.vocab_file = vocab_file
         self.add_bos_token = add_bos_token
         self.add_eos_token = add_eos_token
         self.decode_with_prefix_space = decode_with_prefix_space
-        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
         self.sp_model.Load(vocab_file)
         self._no_prefix_space_tokens = None

             pad_token=pad_token,
             clean_up_tokenization_spaces=clean_up_tokenization_spaces,
             **kwargs,
+            self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs),
         )
         self.vocab_file = vocab_file
         self.add_bos_token = add_bos_token
         self.add_eos_token = add_eos_token
         self.decode_with_prefix_space = decode_with_prefix_space
         self.sp_model.Load(vocab_file)
         self._no_prefix_space_tokens = None