End of training

Browse files

Files changed (6) hide show

README.md +5 -5
adapter_model.safetensors +1 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +171 -87
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -37,15 +37,15 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 2
 - eval_batch_size: 2
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 16
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 5
 - mixed_precision_training: Native AMP
 ### Training results

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
 - eval_batch_size: 2
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 8
 - optimizer: Use OptimizerNames.PAGED_ADAMW_8BIT with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 3
 - mixed_precision_training: Native AMP
 ### Training results

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ec026e0c170dfb09ec06149ee60a5ef42da92251d006bbd0f8353a446a171af
 size 7098064

 version https://git-lfs.github.com/spec/v1
+oid sha256:df88e0c996327c515e25de6a58c119ceadd953b0f82a9129e4a7a2897cc8ea64
 size 7098064

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.974765681326604,
-    "total_flos": 4.01647693824e+18,
-    "train_loss": 2.9910258519167154,
-    "train_runtime": 3782.4986,
-    "train_samples_per_second": 3.666,
-    "train_steps_per_second": 0.229
 }

 {
+    "epoch": 3.0,
+    "total_flos": 2.42193908736e+18,
+    "train_loss": 0.3701638735680484,
+    "train_runtime": 4045.1211,
+    "train_samples_per_second": 2.057,
+    "train_steps_per_second": 0.257
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.974765681326604,
-    "total_flos": 4.01647693824e+18,
-    "train_loss": 2.9910258519167154,
-    "train_runtime": 3782.4986,
-    "train_samples_per_second": 3.666,
-    "train_steps_per_second": 0.229
 }

 {
+    "epoch": 3.0,
+    "total_flos": 2.42193908736e+18,
+    "train_loss": 0.3701638735680484,
+    "train_runtime": 4045.1211,
+    "train_samples_per_second": 2.057,
+    "train_steps_per_second": 0.257
 }

trainer_state.json CHANGED Viewed

@@ -1,154 +1,238 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.974765681326604,
-  "eval_steps": 500,
-  "global_step": 865,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.2883922134102379,
-      "grad_norm": 5.0078020095825195,
-      "learning_rate": 1.8843930635838153e-05,
-      "loss": 6.6486,
       "step": 50
     },
     {
-      "epoch": 0.5767844268204758,
-      "grad_norm": 2.4647130966186523,
-      "learning_rate": 1.76878612716763e-05,
-      "loss": 5.1264,
       "step": 100
     },
     {
-      "epoch": 0.8651766402307137,
-      "grad_norm": 3.123357057571411,
-      "learning_rate": 1.6531791907514452e-05,
-      "loss": 4.0859,
       "step": 150
     },
     {
-      "epoch": 1.1499639509733237,
-      "grad_norm": 1.291628122329712,
-      "learning_rate": 1.5375722543352604e-05,
-      "loss": 3.061,
       "step": 200
     },
     {
-      "epoch": 1.4383561643835616,
-      "grad_norm": 1.2552602291107178,
-      "learning_rate": 1.4242774566473989e-05,
-      "loss": 2.8565,
       "step": 250
     },
     {
-      "epoch": 1.7267483777937995,
-      "grad_norm": 1.0198160409927368,
-      "learning_rate": 1.3132947976878613e-05,
-      "loss": 2.6909,
       "step": 300
     },
     {
-      "epoch": 2.0115356885364095,
-      "grad_norm": 1.449593424797058,
-      "learning_rate": 1.1976878612716765e-05,
-      "loss": 2.6208,
       "step": 350
     },
     {
-      "epoch": 2.2999279019466474,
-      "grad_norm": 1.5548640489578247,
-      "learning_rate": 1.0820809248554913e-05,
-      "loss": 2.6048,
       "step": 400
     },
     {
-      "epoch": 2.5883201153568853,
-      "grad_norm": 1.121537446975708,
-      "learning_rate": 9.664739884393064e-06,
-      "loss": 2.494,
       "step": 450
     },
     {
-      "epoch": 2.8767123287671232,
-      "grad_norm": 1.1632635593414307,
-      "learning_rate": 8.508670520231216e-06,
-      "loss": 2.4738,
       "step": 500
     },
     {
-      "epoch": 2.8767123287671232,
-      "eval_runtime": 229.0364,
-      "eval_samples_per_second": 5.401,
-      "eval_steps_per_second": 2.703,
       "step": 500
     },
     {
-      "epoch": 3.1614996395097332,
-      "grad_norm": 1.4202187061309814,
-      "learning_rate": 7.3526011560693645e-06,
-      "loss": 2.4292,
       "step": 550
     },
     {
-      "epoch": 3.449891852919971,
-      "grad_norm": 9.334039688110352,
-      "learning_rate": 6.196531791907515e-06,
-      "loss": 2.3906,
       "step": 600
     },
     {
-      "epoch": 3.738284066330209,
-      "grad_norm": 1.7713243961334229,
-      "learning_rate": 5.040462427745665e-06,
-      "loss": 2.4202,
       "step": 650
     },
     {
-      "epoch": 4.023071377072819,
-      "grad_norm": 1.497362732887268,
-      "learning_rate": 3.884393063583815e-06,
-      "loss": 2.2646,
       "step": 700
     },
     {
-      "epoch": 4.311463590483057,
-      "grad_norm": 1.148555040359497,
-      "learning_rate": 2.7283236994219654e-06,
-      "loss": 2.2977,
       "step": 750
     },
     {
-      "epoch": 4.599855803893295,
-      "grad_norm": 1.0419560670852661,
-      "learning_rate": 1.5722543352601158e-06,
-      "loss": 2.2711,
       "step": 800
     },
     {
-      "epoch": 4.888248017303533,
-      "grad_norm": 1.8127518892288208,
-      "learning_rate": 4.161849710982659e-07,
-      "loss": 2.3197,
       "step": 850
     },
     {
-      "epoch": 4.974765681326604,
-      "step": 865,
-      "total_flos": 4.01647693824e+18,
-      "train_loss": 2.9910258519167154,
-      "train_runtime": 3782.4986,
-      "train_samples_per_second": 3.666,
-      "train_steps_per_second": 0.229
     }
   ],
   "logging_steps": 50,
-  "max_steps": 865,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
-  "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -161,8 +245,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.01647693824e+18,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 100,
+  "global_step": 1041,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1440922190201729,
+      "grad_norm": 2.598850727081299,
+      "learning_rate": 0.0001903938520653218,
+      "loss": 0.6467,
       "step": 50
     },
     {
+      "epoch": 0.2881844380403458,
+      "grad_norm": 2.249300956726074,
+      "learning_rate": 0.00018078770413064362,
+      "loss": 0.4668,
       "step": 100
     },
     {
+      "epoch": 0.2881844380403458,
+      "eval_runtime": 232.7234,
+      "eval_samples_per_second": 5.315,
+      "eval_steps_per_second": 2.66,
+      "step": 100
+    },
+    {
+      "epoch": 0.4322766570605187,
+      "grad_norm": 1.964786410331726,
+      "learning_rate": 0.00017118155619596544,
+      "loss": 0.4482,
       "step": 150
     },
     {
+      "epoch": 0.5763688760806917,
+      "grad_norm": 1.8695533275604248,
+      "learning_rate": 0.00016157540826128723,
+      "loss": 0.4197,
+      "step": 200
+    },
+    {
+      "epoch": 0.5763688760806917,
+      "eval_runtime": 227.4078,
+      "eval_samples_per_second": 5.44,
+      "eval_steps_per_second": 2.722,
       "step": 200
     },
     {
+      "epoch": 0.7204610951008645,
+      "grad_norm": 1.8768256902694702,
+      "learning_rate": 0.00015196926032660902,
+      "loss": 0.4265,
       "step": 250
     },
     {
+      "epoch": 0.8645533141210374,
+      "grad_norm": 1.8593772649765015,
+      "learning_rate": 0.00014236311239193086,
+      "loss": 0.4039,
+      "step": 300
+    },
+    {
+      "epoch": 0.8645533141210374,
+      "eval_runtime": 225.9543,
+      "eval_samples_per_second": 5.475,
+      "eval_steps_per_second": 2.739,
       "step": 300
     },
     {
+      "epoch": 1.0086455331412103,
+      "grad_norm": 1.2640736103057861,
+      "learning_rate": 0.00013275696445725266,
+      "loss": 0.3906,
       "step": 350
     },
     {
+      "epoch": 1.1527377521613833,
+      "grad_norm": 1.3723323345184326,
+      "learning_rate": 0.00012315081652257445,
+      "loss": 0.3547,
+      "step": 400
+    },
+    {
+      "epoch": 1.1527377521613833,
+      "eval_runtime": 226.5998,
+      "eval_samples_per_second": 5.459,
+      "eval_steps_per_second": 2.732,
       "step": 400
     },
     {
+      "epoch": 1.2968299711815563,
+      "grad_norm": 1.395857810974121,
+      "learning_rate": 0.00011354466858789625,
+      "loss": 0.3402,
       "step": 450
     },
     {
+      "epoch": 1.440922190201729,
+      "grad_norm": 1.6172202825546265,
+      "learning_rate": 0.00010393852065321807,
+      "loss": 0.34,
       "step": 500
     },
     {
+      "epoch": 1.440922190201729,
+      "eval_runtime": 227.4832,
+      "eval_samples_per_second": 5.438,
+      "eval_steps_per_second": 2.721,
       "step": 500
     },
     {
+      "epoch": 1.585014409221902,
+      "grad_norm": 1.5597540140151978,
+      "learning_rate": 9.433237271853987e-05,
+      "loss": 0.337,
       "step": 550
     },
     {
+      "epoch": 1.729106628242075,
+      "grad_norm": 1.3169169425964355,
+      "learning_rate": 8.472622478386168e-05,
+      "loss": 0.3597,
       "step": 600
     },
     {
+      "epoch": 1.729106628242075,
+      "eval_runtime": 224.0401,
+      "eval_samples_per_second": 5.521,
+      "eval_steps_per_second": 2.763,
+      "step": 600
+    },
+    {
+      "epoch": 1.8731988472622478,
+      "grad_norm": 1.5286619663238525,
+      "learning_rate": 7.512007684918348e-05,
+      "loss": 0.3541,
       "step": 650
     },
     {
+      "epoch": 2.0172910662824206,
+      "grad_norm": 1.4207804203033447,
+      "learning_rate": 6.551392891450529e-05,
+      "loss": 0.3503,
       "step": 700
     },
     {
+      "epoch": 2.0172910662824206,
+      "eval_runtime": 229.2463,
+      "eval_samples_per_second": 5.396,
+      "eval_steps_per_second": 2.7,
+      "step": 700
+    },
+    {
+      "epoch": 2.161383285302594,
+      "grad_norm": 1.2903691530227661,
+      "learning_rate": 5.59077809798271e-05,
+      "loss": 0.3175,
       "step": 750
     },
     {
+      "epoch": 2.3054755043227666,
+      "grad_norm": 1.656386375427246,
+      "learning_rate": 4.63016330451489e-05,
+      "loss": 0.3074,
+      "step": 800
+    },
+    {
+      "epoch": 2.3054755043227666,
+      "eval_runtime": 228.7555,
+      "eval_samples_per_second": 5.408,
+      "eval_steps_per_second": 2.706,
       "step": 800
     },
     {
+      "epoch": 2.4495677233429394,
+      "grad_norm": 1.3060048818588257,
+      "learning_rate": 3.66954851104707e-05,
+      "loss": 0.3095,
       "step": 850
     },
     {
+      "epoch": 2.5936599423631126,
+      "grad_norm": 1.136078953742981,
+      "learning_rate": 2.7089337175792506e-05,
+      "loss": 0.2877,
+      "step": 900
+    },
+    {
+      "epoch": 2.5936599423631126,
+      "eval_runtime": 228.5101,
+      "eval_samples_per_second": 5.413,
+      "eval_steps_per_second": 2.709,
+      "step": 900
+    },
+    {
+      "epoch": 2.7377521613832854,
+      "grad_norm": 1.0104094743728638,
+      "learning_rate": 1.7483189241114314e-05,
+      "loss": 0.2997,
+      "step": 950
+    },
+    {
+      "epoch": 2.881844380403458,
+      "grad_norm": 1.434010624885559,
+      "learning_rate": 7.87704130643612e-06,
+      "loss": 0.2896,
+      "step": 1000
+    },
+    {
+      "epoch": 2.881844380403458,
+      "eval_runtime": 226.8836,
+      "eval_samples_per_second": 5.452,
+      "eval_steps_per_second": 2.728,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "step": 1041,
+      "total_flos": 2.42193908736e+18,
+      "train_loss": 0.3701638735680484,
+      "train_runtime": 4045.1211,
+      "train_samples_per_second": 2.057,
+      "train_steps_per_second": 0.257
     }
   ],
   "logging_steps": 50,
+  "max_steps": 1041,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2.42193908736e+18,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67cec95dc49a757b9d826940fcd3043ff38ff7b88b59ae2cb25c21210f2da126
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ecfa4925538d5d694197138cbcc95396fedc580f5bf53b61a2b5623a82235f7
 size 5304