Spaces:

nroggendorff
/

train-llama

Runtime error

nroggendorff commited on Sep 2, 2024

Commit

f5014ce

verified ·

1 Parent(s): 85c4894

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -49,14 +49,6 @@ def create_tokenizer(training_corpus):
 def load_tokenizer(training_corpus):
     tokenizer = AutoTokenizer.from_pretrained(OUTPUT_REPO)
-    special_tokens = ["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
-    special_tokens.append(["<|user|>", "<|bot|>", "<|end|>"])
-    tokenizer.train_from_iterator(
-        training_corpus,
-        vocab_size=VOCAB_SIZE,
-        min_frequency=2,
-        special_tokens=special_tokens
-    )
     return tokenizer
 def get_training_corpus(dataset):

 def load_tokenizer(training_corpus):
     tokenizer = AutoTokenizer.from_pretrained(OUTPUT_REPO)
     return tokenizer
 def get_training_corpus(dataset):