Model save

Browse files

Files changed (7) hide show

README.md +1 -1
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +114 -84
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/mzyin-university-of-florida/huggingface/runs/d7nzn042)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/mzyin-university-of-florida/huggingface/runs/t93s4ryo)
 This model was trained with SFT.

adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfb69b113065b3ebbae4fc959507a704194f2173e04ccab9645085911d126d5f
 size 545743328

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8ee017b466ac8e1af621f225814f55dc2c20824ed0966a3bdb375ba1006db6a
 size 545743328

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.666666666666666,
-    "total_flos": 1376786000642048.0,
-    "train_loss": 6.840779709815979,
-    "train_runtime": 46.6654,
     "train_samples": 568,
-    "train_samples_per_second": 19.072,
-    "train_steps_per_second": 0.214
 }

 {
+    "epoch": 5.0,
+    "total_flos": 18203285913600.0,
+    "train_loss": 3.477997573216756,
+    "train_runtime": 36.1944,
     "train_samples": 568,
+    "train_samples_per_second": 12.295,
+    "train_steps_per_second": 1.658
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 9.666666666666666,
-    "total_flos": 1376786000642048.0,
-    "train_loss": 6.840779709815979,
-    "train_runtime": 46.6654,
     "train_samples": 568,
-    "train_samples_per_second": 19.072,
-    "train_steps_per_second": 0.214
 }

 {
+    "epoch": 5.0,
+    "total_flos": 18203285913600.0,
+    "train_loss": 3.477997573216756,
+    "train_runtime": 36.1944,
     "train_samples": 568,
+    "train_samples_per_second": 12.295,
+    "train_steps_per_second": 1.658
 }

trainer_state.json CHANGED Viewed

@@ -1,128 +1,158 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.666666666666666,
   "eval_steps": 500,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.31581476137364617,
-      "learning_rate": 2e-06,
-      "loss": 3.566,
       "step": 1
     },
     {
-      "epoch": 0.6666666666666666,
-      "eval_loss": 3.655458688735962,
-      "eval_runtime": 0.3709,
-      "eval_samples_per_second": 48.534,
-      "eval_steps_per_second": 8.089,
-      "step": 1
     },
     {
       "epoch": 1.6666666666666665,
-      "eval_loss": 3.6550912857055664,
-      "eval_runtime": 0.3817,
-      "eval_samples_per_second": 47.155,
-      "eval_steps_per_second": 7.859,
-      "step": 2
     },
     {
-      "epoch": 2.6666666666666665,
-      "eval_loss": 3.6545002460479736,
-      "eval_runtime": 0.374,
-      "eval_samples_per_second": 48.126,
-      "eval_steps_per_second": 8.021,
-      "step": 3
     },
     {
-      "epoch": 3.6666666666666665,
-      "eval_loss": 3.6540424823760986,
-      "eval_runtime": 0.3751,
-      "eval_samples_per_second": 47.981,
-      "eval_steps_per_second": 7.997,
-      "step": 4
     },
     {
-      "epoch": 4.666666666666667,
-      "grad_norm": 0.6240134572232815,
-      "learning_rate": 1.1736481776669305e-06,
-      "loss": 7.2366,
-      "step": 5
     },
     {
-      "epoch": 4.666666666666667,
-      "eval_loss": 3.6533453464508057,
-      "eval_runtime": 0.3708,
-      "eval_samples_per_second": 48.543,
-      "eval_steps_per_second": 8.091,
-      "step": 5
     },
     {
-      "epoch": 5.666666666666667,
-      "eval_loss": 3.6530237197875977,
-      "eval_runtime": 0.3753,
-      "eval_samples_per_second": 47.956,
-      "eval_steps_per_second": 7.993,
-      "step": 6
     },
     {
-      "epoch": 6.666666666666667,
-      "eval_loss": 3.6526899337768555,
-      "eval_runtime": 0.3681,
-      "eval_samples_per_second": 48.895,
-      "eval_steps_per_second": 8.149,
-      "step": 7
     },
     {
-      "epoch": 7.666666666666667,
-      "eval_loss": 3.6524767875671387,
-      "eval_runtime": 0.3812,
-      "eval_samples_per_second": 47.218,
-      "eval_steps_per_second": 7.87,
-      "step": 8
     },
     {
-      "epoch": 8.666666666666666,
-      "eval_loss": 3.6523280143737793,
-      "eval_runtime": 0.3692,
-      "eval_samples_per_second": 48.752,
-      "eval_steps_per_second": 8.125,
-      "step": 9
     },
     {
-      "epoch": 9.666666666666666,
-      "grad_norm": 0.5211683877512812,
       "learning_rate": 0.0,
-      "loss": 7.1791,
-      "step": 10
     },
     {
-      "epoch": 9.666666666666666,
-      "eval_loss": 3.652298927307129,
-      "eval_runtime": 0.3728,
-      "eval_samples_per_second": 48.284,
-      "eval_steps_per_second": 8.047,
-      "step": 10
     },
     {
-      "epoch": 9.666666666666666,
-      "step": 10,
-      "total_flos": 1376786000642048.0,
-      "train_loss": 6.840779709815979,
-      "train_runtime": 46.6654,
-      "train_samples_per_second": 19.072,
-      "train_steps_per_second": 0.214
     }
   ],
   "logging_steps": 5,
-  "max_steps": 10,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -136,7 +166,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1376786000642048.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 1.9183009817804988,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 3.4904,
       "step": 1
     },
     {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 1.4669764740494382,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 3.6113,
+      "step": 5
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 2.3102441270892657,
+      "learning_rate": 1.973044870579824e-05,
+      "loss": 3.5363,
+      "step": 10
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 3.6004714965820312,
+      "eval_runtime": 0.3916,
+      "eval_samples_per_second": 45.968,
+      "eval_steps_per_second": 7.661,
+      "step": 12
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2536552391599605,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 3.4578,
+      "step": 15
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 0.8379504173528296,
+      "learning_rate": 1.686241637868734e-05,
+      "loss": 3.516,
+      "step": 20
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 3.560063362121582,
+      "eval_runtime": 0.395,
+      "eval_samples_per_second": 45.564,
+      "eval_steps_per_second": 7.594,
+      "step": 24
     },
     {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.8826743196650887,
+      "learning_rate": 1.4487991802004625e-05,
+      "loss": 3.429,
+      "step": 25
     },
     {
+      "epoch": 2.5,
+      "grad_norm": 0.9643551070955534,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 3.4933,
+      "step": 30
     },
     {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.800770231101502,
+      "learning_rate": 8.839070858747697e-06,
+      "loss": 3.4836,
+      "step": 35
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 3.534764289855957,
+      "eval_runtime": 0.5846,
+      "eval_samples_per_second": 30.789,
+      "eval_steps_per_second": 5.131,
+      "step": 36
     },
     {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.8243232107653643,
+      "learning_rate": 6.039202339608432e-06,
+      "loss": 3.4287,
+      "step": 40
     },
     {
+      "epoch": 3.75,
+      "grad_norm": 1.0751974758407474,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 3.5007,
+      "step": 45
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 3.523860454559326,
+      "eval_runtime": 0.3897,
+      "eval_samples_per_second": 46.188,
+      "eval_steps_per_second": 7.698,
+      "step": 48
     },
     {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.7780096021946287,
+      "learning_rate": 1.6451218858706374e-06,
+      "loss": 3.4041,
+      "step": 50
     },
     {
+      "epoch": 4.583333333333333,
+      "grad_norm": 0.9901654284407495,
+      "learning_rate": 4.2010487684511105e-07,
+      "loss": 3.4807,
+      "step": 55
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.3948344306556273,
       "learning_rate": 0.0,
+      "loss": 3.4187,
+      "step": 60
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 3.5221145153045654,
+      "eval_runtime": 0.3973,
+      "eval_samples_per_second": 45.3,
+      "eval_steps_per_second": 7.55,
+      "step": 60
     },
     {
+      "epoch": 5.0,
+      "step": 60,
+      "total_flos": 18203285913600.0,
+      "train_loss": 3.477997573216756,
+      "train_runtime": 36.1944,
+      "train_samples_per_second": 12.295,
+      "train_steps_per_second": 1.658
     }
   ],
   "logging_steps": 5,
+  "max_steps": 60,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 18203285913600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40cae7246274451657f506f8583541c02934b9be8d7b704351eadd8e3a7d5526
 size 7544

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef5f8a3833a329a348e58e3e8dcca749f3c66651ed96679d686727e3e3c31c4c
 size 7544