Training in progress, epoch 6, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dab21a3309f43892efdf6d32d3eb2a83f87740fc40912ec53fff44ce1639a8b
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:a87059de773a647f0f146c9c6d0b08d5535f799d9fa1c34e6aec16f5407fc67c
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ff253a82aaff7be91301625082eac8e395a14f23fc079cb32647b9b6e5388e
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:7994e3322be09b5f88a7dbc2a5814c66fcb49eac3f6f61e2db6e5b2dd3f344e8
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5dc815408d1d7abfa9ba6c0dc7793cae2a75c860d693e06433fbcdfbd86b13d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:473ecb09e5f106de8046a76cc9b1107489610a4ca8d22c8acd37629ea6ee333c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d384c207c19b3bb34dc652f0d12803de0a7eba856a942818f2ab5a8834f9006c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2068a5d955976d9311723e9deb7bf5d0b82ab774ba392808af341e32685de248
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 5.481770197550456,
-  "best_model_checkpoint": "./results/checkpoint-4580",
-  "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 4580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -382,6 +382,81 @@
       "eval_samples_per_second": 270.375,
       "eval_steps_per_second": 8.45,
       "step": 4580
     }
   ],
   "logging_steps": 100,
@@ -401,7 +476,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9638831166693120.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 5.272278467814128,
+  "best_model_checkpoint": "./results/checkpoint-5496",
+  "epoch": 6.0,
   "eval_steps": 500,
+  "global_step": 5496,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 270.375,
       "eval_steps_per_second": 8.45,
       "step": 4580
+    },
+    {
+      "epoch": 5.021834061135372,
+      "grad_norm": 25.387714385986328,
+      "learning_rate": 1.1168122270742358e-05,
+      "loss": 5.0585,
+      "step": 4600
+    },
+    {
+      "epoch": 5.131004366812227,
+      "grad_norm": 33.1529655456543,
+      "learning_rate": 1.0758733624454149e-05,
+      "loss": 4.774,
+      "step": 4700
+    },
+    {
+      "epoch": 5.240174672489083,
+      "grad_norm": 31.700637817382812,
+      "learning_rate": 1.034934497816594e-05,
+      "loss": 4.762,
+      "step": 4800
+    },
+    {
+      "epoch": 5.349344978165939,
+      "grad_norm": 34.32217025756836,
+      "learning_rate": 9.93995633187773e-06,
+      "loss": 4.8645,
+      "step": 4900
+    },
+    {
+      "epoch": 5.458515283842795,
+      "grad_norm": 52.338130950927734,
+      "learning_rate": 9.530567685589519e-06,
+      "loss": 4.9913,
+      "step": 5000
+    },
+    {
+      "epoch": 5.567685589519651,
+      "grad_norm": 27.761211395263672,
+      "learning_rate": 9.12117903930131e-06,
+      "loss": 4.9047,
+      "step": 5100
+    },
+    {
+      "epoch": 5.676855895196507,
+      "grad_norm": 36.54159164428711,
+      "learning_rate": 8.7117903930131e-06,
+      "loss": 4.7824,
+      "step": 5200
+    },
+    {
+      "epoch": 5.786026200873362,
+      "grad_norm": 31.954957962036133,
+      "learning_rate": 8.302401746724891e-06,
+      "loss": 4.7555,
+      "step": 5300
+    },
+    {
+      "epoch": 5.895196506550218,
+      "grad_norm": 33.35627365112305,
+      "learning_rate": 7.89301310043668e-06,
+      "loss": 4.8389,
+      "step": 5400
+    },
+    {
+      "epoch": 6.0,
+      "eval_avg_mae": 5.272278467814128,
+      "eval_loss": 5.272278308868408,
+      "eval_mae_lex": 4.76518440246582,
+      "eval_mae_sem": 3.384120225906372,
+      "eval_mae_syn": 7.6675310134887695,
+      "eval_runtime": 27.0821,
+      "eval_samples_per_second": 270.548,
+      "eval_steps_per_second": 8.456,
+      "step": 5496
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.1566597400031744e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null