Spaces:

nroggendorff
/

train-llama

Starting on L40S

nroggendorff commited on Jul 24, 2024

Commit

4f9862c

verified ·

1 Parent(s): 53e45ad

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import os
 import torch
 import trl
-from transformers import AutoTokenizer, LlamaConfig, LlamaForCausalLM, TrainingArguments
 from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
@@ -28,7 +28,8 @@ def create_tokenizer(training_corpus):
         min_frequency=2,
         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
-    return tokenizer
 def get_training_corpus(dataset):
     for i in range(0, len(dataset), 1000):

 import torch
 import trl
+from transformers import AutoTokenizer, LlamaConfig, LlamaForCausalLM, TrainingArguments, PreTrainedTokenizerFast
 from datasets import load_dataset
 from tokenizers import ByteLevelBPETokenizer
         min_frequency=2,
         special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>", "<|user|>", "<|bot|>", "<|end|>"]
     )
+    return PreTrainedTokenizerFast(tokenizer_object=tokenizer)
 def get_training_corpus(dataset):
     for i in range(0, len(dataset), 1000):