Lolalb
/

AMPLIFY_350M

Feature Extraction

Model card Files Files and versions Community

Lolalb commited on 25 days ago

Commit

20853f2

·

verified ·

1 Parent(s): dcba81b

Upload tokenizer

Files changed (1) hide show

tokenizer.py +2 -2

tokenizer.py CHANGED Viewed

@@ -253,8 +253,8 @@ class ProteinTokenizer(PreTrainedTokenizerFast):
         # Add special tokens
         if add_special_tokens:
             encoded_inputs["input_ids"] = [[self.bos_token_id] + seq + [self.eos_token_id] for seq in encoded_inputs["input_ids"]]
-            encoded_inputs["attention_mask"] = [1, 1] + encoded_inputs["attention_mask"]
-            encoded_inputs["special_tokens_mask"] = [1] + encoded_inputs["special_tokens_mask"] + [1]
         # Truncate
         if truncation:

         # Add special tokens
         if add_special_tokens:
             encoded_inputs["input_ids"] = [[self.bos_token_id] + seq + [self.eos_token_id] for seq in encoded_inputs["input_ids"]]
+            encoded_inputs["attention_mask"] = [[1, 1] + seq for seq in encoded_inputs["attention_mask"]]
+            encoded_inputs["special_tokens_mask"] = [[1] + seq + [1] for seq in encoded_inputs["special_tokens_mask"]]
         # Truncate
         if truncation: