Spaces:

SivaMallikarjun
/

multi-lang-rl-model

Sleeping

App Files Files Community

SivaMallikarjun commited on May 1

Commit

1a60d1d

verified ·

1 Parent(s): ff2f662

Delete train.py

Browse files

Files changed (1) hide show

train.py +0 -61

train.py DELETED Viewed

@@ -1,61 +0,0 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
-from datasets import load_dataset
-import torch
-import os
-# Load Dataset
-dataset = load_dataset('csv', data_files={'train': './data/raw_data.csv'}, delimiter=",")
-# Load Pretrained Tokenizer and Model
-model_name = "xlm-roberta-base"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
-# Tokenization
-def preprocess_function(examples):
-    return tokenizer(examples['text'], truncation=True, padding=True)
-encoded_dataset = dataset.map(preprocess_function, batched=True)
-# Training Arguments
-training_args = TrainingArguments(
-    output_dir="./checkpoints",
-    num_train_epochs=3,
-    per_device_train_batch_size=8,
-    save_steps=100,
-    save_total_limit=1,
-    logging_dir="./logs",
-    logging_steps=10,
-    evaluation_strategy="no",
-    push_to_hub=False,
-    load_best_model_at_end=False
-)
-# Trainer Setup
-trainer = Trainer(
-    model=model,
-    args=training_args,
-    train_dataset=encoded_dataset['train']
-)
-# Start Training
-trainer.train()
-# Save Final Fine-tuned Model
-save_directory = "./models/fine_tuned_xlm_roberta"
-os.makedirs(save_directory, exist_ok=True)
-model.save_pretrained(save_directory)
-tokenizer.save_pretrained(save_directory)
-# Quantize Model (Make Lightweight)
-def quantize_model(model_path):
-    model = AutoModelForSequenceClassification.from_pretrained(model_path)
-    model.to(torch.device('cpu'))
-    model = torch.quantization.quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8)
-    quantized_model_path = model_path + "_quantized"
-    os.makedirs(quantized_model_path, exist_ok=True)
-    model.save_pretrained(quantized_model_path)
-    tokenizer.save_pretrained(quantized_model_path)
-    print(f"Quantized model saved to {quantized_model_path}")
-quantize_model(save_directory)