Spaces:

nroggendorff
/

train-llama

Runtime error

App Files Files Community

nroggendorff commited on Jul 27, 2024

Commit

c2fde61

verified ·

1 Parent(s): ef1c7ad

Update train.py

Browse files

Files changed (1) hide show

train.py +10 -10

train.py CHANGED Viewed

@@ -7,14 +7,14 @@ from transformers import AutoTokenizer, LlamaConfig, LlamaForCausalLM, TrainingA
 from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
-MAX_SEQ_LENGTH = 128
 BATCH_SIZE = 512
 EPOCHS = 50
 LEARNING_RATE = 1e-5
 FACTOR = 2
 VOCAB_SIZE = 3200
-INPUT_DATASET = "nroggendorff/elephant"
-OUTPUT_REPO = "smallama"
 PUSH_TO_HUB = True
 def load_data():
@@ -27,7 +27,7 @@ def create_tokenizer(training_corpus):
         training_corpus,
         vocab_size=VOCAB_SIZE,
         min_frequency=2,
-        special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)
@@ -78,15 +78,15 @@ def configure_tokenizer(tokenizer):
         "unk_token": "<unk>",
         "pad_token": "<pad>",
         "mask_token": "<mask>",
-        "additional_special_tokens": ["<|user|>", "<|bot|>", "<|end|>"]
     }
     tokenizer.add_special_tokens(special_tokens)
-    tokenizer.user_token_id = tokenizer.convert_tokens_to_ids("<|user|>")
-    tokenizer.assistant_token_id = tokenizer.convert_tokens_to_ids("<|bot|>")
-    chat_template = "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '<|user|>\n' + message['content'] + '<|end|>\n' }}{% elif message['role'] == 'assistant' %}{{ '<|bot|>\n' + message['content'] + '<|end|>\n' }}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}{{ eos_token }}"
-    tokenizer.chat_template = chat_template
 def train_model(model, tokenizer, dataset, push):
     args = TrainingArguments(
@@ -96,7 +96,7 @@ def train_model(model, tokenizer, dataset, push):
         learning_rate=LEARNING_RATE,
         optim="sgd"
     )
-    dataset = dataset.map(lambda examples: format_prompts(examples, tokenizer), batched=True)
     trainer = trl.SFTTrainer(
         model=model,
         tokenizer=tokenizer,

 from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
+MAX_SEQ_LENGTH = 512
 BATCH_SIZE = 512
 EPOCHS = 50
 LEARNING_RATE = 1e-5
 FACTOR = 2
 VOCAB_SIZE = 3200
+INPUT_DATASET = "nroggendorff/godson"
+OUTPUT_REPO = "sson"
 PUSH_TO_HUB = True
 def load_data():
         training_corpus,
         vocab_size=VOCAB_SIZE,
         min_frequency=2,
+        special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"]#, "<|user|>", "<|bot|>", "<|end|>"]
     )
     fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer._tokenizer)
         "unk_token": "<unk>",
         "pad_token": "<pad>",
         "mask_token": "<mask>",
+        #"additional_special_tokens": ["<|user|>", "<|bot|>", "<|end|>"]
     }
     tokenizer.add_special_tokens(special_tokens)
+    #tokenizer.user_token_id = tokenizer.convert_tokens_to_ids("<|user|>")
+    #tokenizer.assistant_token_id = tokenizer.convert_tokens_to_ids("<|bot|>")
+    #chat_template = "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '<|user|>\n' + message['content'] + '<|end|>\n' }}{% elif message['role'] == 'assistant' %}{{ '<|bot|>\n' + message['content'] + '<|end|>\n' }}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}{{ eos_token }}"
+    #tokenizer.chat_template = chat_template
 def train_model(model, tokenizer, dataset, push):
     args = TrainingArguments(
         learning_rate=LEARNING_RATE,
         optim="sgd"
     )
+    #dataset = dataset.map(lambda examples: format_prompts(examples, tokenizer), batched=True)
     trainer = trl.SFTTrainer(
         model=model,
         tokenizer=tokenizer,