Training in progress, epoch 5, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e61b427c7e90098665041fc0a0a842c2a81a5d94700dec207f9f18e8fa3e68fe
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dab21a3309f43892efdf6d32d3eb2a83f87740fc40912ec53fff44ce1639a8b
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af3007c1d17883475830f0951448eb8859176b25fee74d22b9b7c1cb61d5b54a
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ff253a82aaff7be91301625082eac8e395a14f23fc079cb32647b9b6e5388e
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:049c6f40a328629846cab1b27e3807d44ea469304a69ff0f3d676cc813cde6b3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5dc815408d1d7abfa9ba6c0dc7793cae2a75c860d693e06433fbcdfbd86b13d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7668389514d10a3d53f140c85ff46df71dcd9dc34fbc1ed6530f2d1a175df2a0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d384c207c19b3bb34dc652f0d12803de0a7eba856a942818f2ab5a8834f9006c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 5.645811716715495,
-  "best_model_checkpoint": "./results/checkpoint-2748",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 3664,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,81 @@
       "eval_samples_per_second": 269.988,
       "eval_steps_per_second": 8.438,
       "step": 3664
     }
   ],
   "logging_steps": 100,
@@ -326,7 +401,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7711064933354496.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 5.481770197550456,
+  "best_model_checkpoint": "./results/checkpoint-4580",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 4580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 269.988,
       "eval_steps_per_second": 8.438,
       "step": 3664
+    },
+    {
+      "epoch": 4.039301310043668,
+      "grad_norm": 37.76191329956055,
+      "learning_rate": 1.4852620087336245e-05,
+      "loss": 5.4072,
+      "step": 3700
+    },
+    {
+      "epoch": 4.148471615720524,
+      "grad_norm": 33.29827117919922,
+      "learning_rate": 1.4443231441048035e-05,
+      "loss": 5.0985,
+      "step": 3800
+    },
+    {
+      "epoch": 4.25764192139738,
+      "grad_norm": 47.478206634521484,
+      "learning_rate": 1.4033842794759826e-05,
+      "loss": 5.1541,
+      "step": 3900
+    },
+    {
+      "epoch": 4.366812227074236,
+      "grad_norm": 31.66642189025879,
+      "learning_rate": 1.3624454148471617e-05,
+      "loss": 5.106,
+      "step": 4000
+    },
+    {
+      "epoch": 4.475982532751091,
+      "grad_norm": 27.389015197753906,
+      "learning_rate": 1.3215065502183406e-05,
+      "loss": 5.1793,
+      "step": 4100
+    },
+    {
+      "epoch": 4.585152838427947,
+      "grad_norm": 26.702226638793945,
+      "learning_rate": 1.2805676855895198e-05,
+      "loss": 5.0975,
+      "step": 4200
+    },
+    {
+      "epoch": 4.6943231441048034,
+      "grad_norm": 31.537691116333008,
+      "learning_rate": 1.2396288209606987e-05,
+      "loss": 4.9613,
+      "step": 4300
+    },
+    {
+      "epoch": 4.8034934497816595,
+      "grad_norm": 26.946945190429688,
+      "learning_rate": 1.1986899563318778e-05,
+      "loss": 5.1799,
+      "step": 4400
+    },
+    {
+      "epoch": 4.9126637554585155,
+      "grad_norm": 27.92361068725586,
+      "learning_rate": 1.1577510917030569e-05,
+      "loss": 5.0393,
+      "step": 4500
+    },
+    {
+      "epoch": 5.0,
+      "eval_avg_mae": 5.481770197550456,
+      "eval_loss": 5.481770038604736,
+      "eval_mae_lex": 4.809901714324951,
+      "eval_mae_sem": 3.8779022693634033,
+      "eval_mae_syn": 7.757506370544434,
+      "eval_runtime": 27.0994,
+      "eval_samples_per_second": 270.375,
+      "eval_steps_per_second": 8.45,
+      "step": 4580
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 9638831166693120.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null