Spaces:

SivaMallikarjun
/

multi-lang-rl-model

Sleeping

App Files Files Community

SivaMallikarjun commited on Apr 26

Commit

979d940

verified ·

1 Parent(s): a2b8c9c

multi_language_rl_model

Browse files

Files changed (8) hide show

multi_language_rl_model/README.md +0 -10
multi_language_rl_model/app.py +0 -22
multi_language_rl_model/checkpoints/checkpoint_episode_100/pytorch_model.bin +0 -0
multi_language_rl_model/data/raw_data.csv +0 -6
multi_language_rl_model/logs/Untitledtraining_log.txt +0 -4
multi_language_rl_model/requirements.txt +0 -5
multi_language_rl_model/train.py +0 -61
multi_language_rl_model/utils/data_preprocessing.py +0 -0

multi_language_rl_model/README.md DELETED Viewed

@@ -1,10 +0,0 @@
----
-title: Multi-Language RL Model
-emoji: 🌍
-colorFrom: blue
-colorTo: green
-sdk: gradio
-sdk_version: "3.50.2"
-app_file: app.py
-pinned: false
----

multi_language_rl_model/app.py DELETED Viewed

@@ -1,22 +0,0 @@
-import gradio as gr
-from transformers import AutoModelForSequenceClassification, AutoTokenizer
-import torch
-model_path = "./models/fine_tuned_xlm_roberta_quantized"
-model = AutoModelForSequenceClassification.from_pretrained(model_path)
-tokenizer = AutoTokenizer.from_pretrained(model_path)
-def classify_text(text):
-    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
-    outputs = model(**inputs)
-    prediction = torch.argmax(outputs.logits, dim=1).item()
-    label = "Correct" if prediction == 1 else "Incorrect"
-    return label
-iface = gr.Interface(fn=classify_text,
-                     inputs="text",
-                     outputs="text",
-                     title="Multi-Language RL Text Classifier")
-if __name__ == "__main__":
-    iface.launch()

multi_language_rl_model/checkpoints/checkpoint_episode_100/pytorch_model.bin DELETED Viewed

File without changes

multi_language_rl_model/data/raw_data.csv DELETED Viewed

@@ -1,6 +0,0 @@
-text,label
-"Bonjour tout le monde",1
-"Hola mundo",1
-"Hello world",1
-"Das ist falsch",0
-"यह गलत है",0

multi_language_rl_model/logs/Untitledtraining_log.txt DELETED Viewed

@@ -1,4 +0,0 @@
-Epoch 1/3 - Loss: 0.456 - Accuracy: 88%
-Epoch 2/3 - Loss: 0.320 - Accuracy: 91%
-Epoch 3/3 - Loss: 0.278 - Accuracy: 93%
-Final Model saved to ./models/fine_tuned_xlm_roberta_quantized/

multi_language_rl_model/requirements.txt DELETED Viewed

@@ -1,5 +0,0 @@
-transformers
-torch
-gradio
-datasets
-huggingface_hub

multi_language_rl_model/train.py DELETED Viewed

@@ -1,61 +0,0 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
-from datasets import load_dataset
-import torch
-import os
-# Load Dataset
-dataset = load_dataset('csv', data_files={'train': './data/raw_data.csv'}, delimiter=",")
-# Load Pretrained Tokenizer and Model
-model_name = "xlm-roberta-base"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
-# Tokenization
-def preprocess_function(examples):
-    return tokenizer(examples['text'], truncation=True, padding=True)
-encoded_dataset = dataset.map(preprocess_function, batched=True)
-# Training Arguments
-training_args = TrainingArguments(
-    output_dir="./checkpoints",
-    num_train_epochs=3,
-    per_device_train_batch_size=8,
-    save_steps=100,
-    save_total_limit=1,
-    logging_dir="./logs",
-    logging_steps=10,
-    evaluation_strategy="no",
-    push_to_hub=False,
-    load_best_model_at_end=False
-)
-# Trainer Setup
-trainer = Trainer(
-    model=model,
-    args=training_args,
-    train_dataset=encoded_dataset['train']
-)
-# Start Training
-trainer.train()
-# Save Final Fine-tuned Model
-save_directory = "./models/fine_tuned_xlm_roberta"
-os.makedirs(save_directory, exist_ok=True)
-model.save_pretrained(save_directory)
-tokenizer.save_pretrained(save_directory)
-# Quantize Model (Make Lightweight)
-def quantize_model(model_path):
-    model = AutoModelForSequenceClassification.from_pretrained(model_path)
-    model.to(torch.device('cpu'))
-    model = torch.quantization.quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8)
-    quantized_model_path = model_path + "_quantized"
-    os.makedirs(quantized_model_path, exist_ok=True)
-    model.save_pretrained(quantized_model_path)
-    tokenizer.save_pretrained(quantized_model_path)
-    print(f"Quantized model saved to {quantized_model_path}")
-quantize_model(save_directory)

multi_language_rl_model/utils/data_preprocessing.py DELETED Viewed

File without changes