Training in progress, epoch 8, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:533bcedc70c1ba977edf8f964162e29dac2f2ded0e80d5ac138e3337711e299e
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:0195e95b07a008ca0adb918c3cf710d2dd35e5922e1076eded57fcb47ec29bc3
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c39e29d6e0217e4ee207e0d4bef98c40b17e4a76692586b3f4efc7b21d165f95
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed50d1f812bf88be9e3a3ef60b44e88993ed9aab461dcd502248ba4e966d769
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff6cc6d0cbab2c0d1b846e878224dd13dea331cdbd300a43f50d003878abb4b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea9f1a22dcc6b48df80d64487fe2cb15b598edf3b547bbcd4fb8ed5b43754655
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39dce596f597946769554edb972b9f1c6abe7c7f4150e7ed88047695e2bb4c5f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4da94ddd87a3dbe17d3a75825e2b60c2edfc2fd36631a373db6346d564b8b7bd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 5.39035161336263,
-  "best_model_checkpoint": "./results/checkpoint-5496",
-  "epoch": 7.0,
   "eval_steps": 500,
-  "global_step": 6412,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -539,6 +539,81 @@
       "eval_samples_per_second": 269.074,
       "eval_steps_per_second": 8.41,
       "step": 6412
     }
   ],
   "logging_steps": 100,
@@ -553,12 +628,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.3494363633370368e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 5.320092519124349,
+  "best_model_checkpoint": "./results/checkpoint-7328",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 7328,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 269.074,
       "eval_steps_per_second": 8.41,
       "step": 6412
+    },
+    {
+      "epoch": 7.096069868995633,
+      "grad_norm": 30.43601417541504,
+      "learning_rate": 5.649563318777293e-06,
+      "loss": 4.4245,
+      "step": 6500
+    },
+    {
+      "epoch": 7.205240174672489,
+      "grad_norm": 32.60799789428711,
+      "learning_rate": 4.967248908296943e-06,
+      "loss": 4.2516,
+      "step": 6600
+    },
+    {
+      "epoch": 7.314410480349345,
+      "grad_norm": 32.61433792114258,
+      "learning_rate": 4.284934497816594e-06,
+      "loss": 4.2598,
+      "step": 6700
+    },
+    {
+      "epoch": 7.423580786026201,
+      "grad_norm": 28.708969116210938,
+      "learning_rate": 3.6026200873362447e-06,
+      "loss": 4.1993,
+      "step": 6800
+    },
+    {
+      "epoch": 7.532751091703057,
+      "grad_norm": 32.070068359375,
+      "learning_rate": 2.920305676855895e-06,
+      "loss": 4.2718,
+      "step": 6900
+    },
+    {
+      "epoch": 7.641921397379913,
+      "grad_norm": 32.91472625732422,
+      "learning_rate": 2.237991266375546e-06,
+      "loss": 4.3288,
+      "step": 7000
+    },
+    {
+      "epoch": 7.751091703056769,
+      "grad_norm": 26.058467864990234,
+      "learning_rate": 1.5556768558951965e-06,
+      "loss": 4.2426,
+      "step": 7100
+    },
+    {
+      "epoch": 7.860262008733624,
+      "grad_norm": 26.022476196289062,
+      "learning_rate": 8.733624454148472e-07,
+      "loss": 4.3651,
+      "step": 7200
+    },
+    {
+      "epoch": 7.96943231441048,
+      "grad_norm": 37.77171325683594,
+      "learning_rate": 1.910480349344978e-07,
+      "loss": 4.1779,
+      "step": 7300
+    },
+    {
+      "epoch": 8.0,
+      "eval_avg_mae": 5.320092519124349,
+      "eval_loss": 5.320092678070068,
+      "eval_mae_lex": 4.7238664627075195,
+      "eval_mae_sem": 3.55670166015625,
+      "eval_mae_syn": 7.6797099113464355,
+      "eval_runtime": 27.2585,
+      "eval_samples_per_second": 268.797,
+      "eval_steps_per_second": 8.401,
+      "step": 7328
     }
   ],
   "logging_steps": 100,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.5422129866708992e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null