Spaces:

aimlnerd
/

predicting-effective-arguments-in-essay

Runtime error

App Files Files Community

aimlnerd commited on Jan 20, 2024

Commit

440014c

1 Parent(s): cb09873

add trainer

Browse files

Files changed (2) hide show

source/services/predicting_effective_arguments/train/model.py +3 -3
source/services/predicting_effective_arguments/train/seq_classification.py +2 -2

source/services/predicting_effective_arguments/train/model.py CHANGED Viewed

@@ -23,14 +23,14 @@ class TransformersSequenceClassifier:
         self.model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels).to(device)
     def tokenizer_func(self, batch):
-        return self.tokenizer(batch["text"], truncation=True, max_len=386)
     def train(self, train_dataset, eval_dataset, epochs=2, batch_size=64):
         train_tok_dataset = train_dataset.map(self.tokenizer_func, batched=True, remove_columns=('inputs', '__index_level_0__'))
         val_tok_dataset = eval_dataset.map(self.tokenizer_func, batched=True, remove_columns=('inputs', '__index_level_0__'))
         data_collator = DataCollatorWithPadding(tokenizer=self.tokenizer, padding='longest')
-        training_args = TrainingArguments(output_dir=self.model_output_dir,
                                           num_train_epochs=epochs,
                                           learning_rate=2e-5,
                                           per_device_train_batch_size=batch_size,
@@ -38,7 +38,7 @@ class TransformersSequenceClassifier:
                                           weight_decay=0.01,
                                           evaluation_strategy="epoch",
                                           disable_tqdm=False,
-                                          logging_steps=len(train_dataset) // batch_size,
                                           push_to_hub=True,
                                           log_level="error")
         self.trainer = Trainer(

         self.model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels).to(device)
     def tokenizer_func(self, batch):
+        return self.tokenizer(batch["inputs"], truncation=True) #, max_len=386
     def train(self, train_dataset, eval_dataset, epochs=2, batch_size=64):
         train_tok_dataset = train_dataset.map(self.tokenizer_func, batched=True, remove_columns=('inputs', '__index_level_0__'))
         val_tok_dataset = eval_dataset.map(self.tokenizer_func, batched=True, remove_columns=('inputs', '__index_level_0__'))
         data_collator = DataCollatorWithPadding(tokenizer=self.tokenizer, padding='longest')
+        training_args = TrainingArguments(output_dir=f"{self.model_output_dir}/predicting_effective_arguments_distilbert",
                                           num_train_epochs=epochs,
                                           learning_rate=2e-5,
                                           per_device_train_batch_size=batch_size,
                                           weight_decay=0.01,
                                           evaluation_strategy="epoch",
                                           disable_tqdm=False,
+                                          logging_steps=len(train_dataset)// batch_size,
                                           push_to_hub=True,
                                           log_level="error")
         self.trainer = Trainer(

source/services/predicting_effective_arguments/train/seq_classification.py CHANGED Viewed

@@ -52,8 +52,8 @@ def prepare_input_text(df, sep_token):
 if __name__ == '__main__':
     config = CFG()
-    seqClassifer = TransformersSequenceClassifier(model_output_dir=config.MODEL_OUTPUT_DIR, tokenizer=tokenizer, model_checkpoint="distilbert-base-uncased", num_labels=3)
-    data = pd.read_csv("data/raw_data/train.csv")
     test_df = pd.read_csv("data/raw_data/test.csv")
     train_df, valid_df = train_test_split(data, test_size=0.30, random_state=42)

 if __name__ == '__main__':
     config = CFG()
+    seqClassifer = TransformersSequenceClassifier(model_output_dir=config.MODEL_OUTPUT_DIR, tokenizer=tokenizer, model_checkpoint="distilbert-base-uncased", num_labels=3) #distilbert-base-uncased
+    data = pd.read_csv("data/raw_data/train.csv")[:100]
     test_df = pd.read_csv("data/raw_data/test.csv")
     train_df, valid_df = train_test_split(data, test_size=0.30, random_state=42)