Spaces:

Vishwas1
/

LLMTrainingPro

Sleeping

Vishwas1 commited on Sep 18, 2024

Commit

ec09650

verified ·

1 Parent(s): 3a4bc44

Update train_model.py

Files changed (1) hide show

train_model.py CHANGED Viewed

@@ -74,7 +74,7 @@ def load_and_prepare_dataset(task, dataset_name, tokenizer, sequence_length):
         logging.info("Dataset loaded successfully.")
         def tokenize_function(examples):
-            return tokenizer(examples['text'], truncation=True, max_length=sequence_length)
         # Tokenize the dataset
         tokenized_datasets = dataset.shuffle(seed=42).select(range(500)).map(tokenize_function, batched=True)

         logging.info("Dataset loaded successfully.")
         def tokenize_function(examples):
+            return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=sequence_length)
         # Tokenize the dataset
         tokenized_datasets = dataset.shuffle(seed=42).select(range(500)).map(tokenize_function, batched=True)