Spaces:

nroggendorff
/

train-llama

Runtime error

nroggendorff commited on Jul 24, 2024

Commit

c2f601d

verified ·

1 Parent(s): dfffe28

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -29,8 +29,9 @@ def create_tokenizer(training_corpus):
         min_frequency=2,
         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
-    return PreTrainedTokenizerFast(tokenizer_object=tokenizer)
 def get_training_corpus(dataset):
     for i in range(0, len(dataset), 1000):
@@ -48,9 +49,7 @@ def format_prompts(examples, tokenizer):
             conversation.append({"role": "assistant", "content": response})
         formatted_conversation = tokenizer.apply_chat_template(conversation, tokenize=False)
         texts.append(formatted_conversation)
-    output = {}
-    output['text'] = texts
-    return output
 def create_model(tokenizer, factor):
     config = LlamaConfig(

         min_frequency=2,
         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
+    fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
+    return fast_tokenizer
 def get_training_corpus(dataset):
     for i in range(0, len(dataset), 1000):
             conversation.append({"role": "assistant", "content": response})
         formatted_conversation = tokenizer.apply_chat_template(conversation, tokenize=False)
         texts.append(formatted_conversation)
+    return {"text": texts}
 def create_model(tokenizer, factor):
     config = LlamaConfig(