Spaces:

nroggendorff
/

train-llama

Runtime error

nroggendorff commited on Aug 31, 2024

Commit

4aafa13

verified ·

1 Parent(s): 6008f38

Update train.py

Files changed (1) hide show

train.py CHANGED Viewed

@@ -44,6 +44,10 @@ def create_tokenizer(training_corpus):
     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)
     return fast_tokenizer
 def get_training_corpus(dataset):
     texts = []
     #for field in ['pretrain', 'instruct']:
@@ -163,8 +167,11 @@ def train_model(model, tokenizer, dataset, push, isinst):
 def main(push_to_hub=True, is_inst_finetune=False):
     dataset = load_data()
-    training_corpus = get_training_corpus(dataset)
-    tokenizer = create_tokenizer(training_corpus)
     configure_tokenizer(tokenizer)
     if is_inst_finetune:
         model = load_model()

     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)
     return fast_tokenizer
+def load_tokenizer():
+    tok = AutoTokenizer.from_pretrained(OUTPUT_REPO)
+    return tok
 def get_training_corpus(dataset):
     texts = []
     #for field in ['pretrain', 'instruct']:
 def main(push_to_hub=True, is_inst_finetune=False):
     dataset = load_data()
+    if not is_inst_finetune:
+        training_corpus = get_training_corpus(dataset)
+        tokenizer = create_tokenizer(training_corpus)
+    else:
+        tokenizer = load_tokenizer()
     configure_tokenizer(tokenizer)
     if is_inst_finetune:
         model = load_model()