Spaces:

GabrielSalem
/

RealTimeAnswer

Sleeping

GabrielSalem commited on Dec 17, 2024

Commit

2ad819f

verified ·

1 Parent(s): f6dd965

Delete utils.py

Files changed (1) hide show

utils.py DELETED Viewed

@@ -1,28 +0,0 @@
-from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
-from datasets import Dataset
-def preprocess_data(df, tokenizer):
-    df["text"] = df.apply(lambda row: f"Question: {row['Question']} Answer: {row['Answer']}", axis=1)
-    dataset = Dataset.from_pandas(df)
-    dataset = dataset.map(lambda x: tokenizer(x["text"], truncation=True, padding="max_length", max_length=512), batched=True)
-    return dataset
-def train_model(model, tokenizer, dataset, output_dir):
-    training_args = TrainingArguments(
-        output_dir=output_dir,
-        per_device_train_batch_size=4,
-        num_train_epochs=1,
-        logging_dir="./logs",
-        save_steps=10,
-        logging_steps=10
-    )
-    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
-    trainer = Trainer(
-        model=model,
-        args=training_args,
-        train_dataset=dataset,
-        data_collator=data_collator
-    )
-    trainer.train()
-    model.save_pretrained(output_dir)
-    tokenizer.save_pretrained(output_dir)