Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75562cd31a0f9b43a875d53eafeae39ff9f4884568c984afec548fb0b3a18bea
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:44e654e4d50bd4c08e40f1c40359055b24af92e519f539420a2ae3729b5bff38
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4737340e44de8f447a156c00d13c226c8d13eaaa3479d55229dea45aefbcbd95
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:a152b235056b4fcbaeb415b6d13c581c062ea5ef61192c30dcf14433ed941558
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc930492c5e0375b00eb1faa8503ca1a4cd6495e47aeaa009df65f9bce5b16e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:76b3b8471ca0351c811d90c5b574a45dac1c24b25ffcf13ec6b85586685c4c47
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9707f7f99f72a12c2631595b1bcc8638efdeda09ae580feffc3a464b56550f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8143cf4c2b0cbae224cb6ee44d414097e32f9582a6067851f3fe7a3ab225aca6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 6.929315567016602,
-  "best_model_checkpoint": "./results/checkpoint-1832",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 1832,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,81 @@
       "eval_samples_per_second": 272.065,
       "eval_steps_per_second": 8.503,
       "step": 1832
     }
   ],
   "logging_steps": 100,
@@ -176,7 +251,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3855532466677248.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 6.088820139567058,
+  "best_model_checkpoint": "./results/checkpoint-2748",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 2748,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 272.065,
       "eval_steps_per_second": 8.503,
       "step": 1832
+    },
+    {
+      "epoch": 2.074235807860262,
+      "grad_norm": 40.95843505859375,
+      "learning_rate": 2.2221615720524018e-05,
+      "loss": 6.1465,
+      "step": 1900
+    },
+    {
+      "epoch": 2.183406113537118,
+      "grad_norm": 26.046171188354492,
+      "learning_rate": 2.181222707423581e-05,
+      "loss": 5.9925,
+      "step": 2000
+    },
+    {
+      "epoch": 2.2925764192139737,
+      "grad_norm": 36.05866622924805,
+      "learning_rate": 2.1402838427947596e-05,
+      "loss": 5.8884,
+      "step": 2100
+    },
+    {
+      "epoch": 2.4017467248908297,
+      "grad_norm": 23.126216888427734,
+      "learning_rate": 2.099344978165939e-05,
+      "loss": 5.9357,
+      "step": 2200
+    },
+    {
+      "epoch": 2.5109170305676853,
+      "grad_norm": 29.862232208251953,
+      "learning_rate": 2.058406113537118e-05,
+      "loss": 5.8846,
+      "step": 2300
+    },
+    {
+      "epoch": 2.6200873362445414,
+      "grad_norm": 30.4029541015625,
+      "learning_rate": 2.0174672489082972e-05,
+      "loss": 5.8334,
+      "step": 2400
+    },
+    {
+      "epoch": 2.7292576419213974,
+      "grad_norm": 30.72637367248535,
+      "learning_rate": 1.976528384279476e-05,
+      "loss": 5.8922,
+      "step": 2500
+    },
+    {
+      "epoch": 2.8384279475982535,
+      "grad_norm": 24.41779136657715,
+      "learning_rate": 1.935589519650655e-05,
+      "loss": 5.912,
+      "step": 2600
+    },
+    {
+      "epoch": 2.947598253275109,
+      "grad_norm": 27.00792121887207,
+      "learning_rate": 1.894650655021834e-05,
+      "loss": 5.655,
+      "step": 2700
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_mae": 6.088820139567058,
+      "eval_loss": 6.088819980621338,
+      "eval_mae_lex": 5.295498847961426,
+      "eval_mae_sem": 4.145097255706787,
+      "eval_mae_syn": 8.8258638381958,
+      "eval_runtime": 26.9401,
+      "eval_samples_per_second": 271.974,
+      "eval_steps_per_second": 8.5,
+      "step": 2748
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5783298700015872.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null