Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e2732a6d21b842687bf63e8ed4677683d4c127cb8c9417afe437147b86b7919
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:7381c11af32f450ef90a1f41be45370df688105c59000f73049a6f3d855bf5bf
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdce2c84944c39c9782d1ca61591a7c11485d3a4ca5f9456c59f7d8b41bf5d5f
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fa5f76c2cf56d06474142e07bd2538df2e0f93a495907116066ebde69a2488c
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc930492c5e0375b00eb1faa8503ca1a4cd6495e47aeaa009df65f9bce5b16e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:76b3b8471ca0351c811d90c5b574a45dac1c24b25ffcf13ec6b85586685c4c47
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9707f7f99f72a12c2631595b1bcc8638efdeda09ae580feffc3a464b56550f1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8143cf4c2b0cbae224cb6ee44d414097e32f9582a6067851f3fe7a3ab225aca6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 6.067600250244141,
-  "best_model_checkpoint": "./results/checkpoint-1832",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 1832,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,81 @@
       "eval_samples_per_second": 269.184,
       "eval_steps_per_second": 8.413,
       "step": 1832
     }
   ],
   "logging_steps": 100,
@@ -176,7 +251,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3855532466677248.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 5.645811716715495,
+  "best_model_checkpoint": "./results/checkpoint-2748",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 2748,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 269.184,
       "eval_steps_per_second": 8.413,
       "step": 1832
+    },
+    {
+      "epoch": 2.074235807860262,
+      "grad_norm": 36.847415924072266,
+      "learning_rate": 2.2221615720524018e-05,
+      "loss": 5.9928,
+      "step": 1900
+    },
+    {
+      "epoch": 2.183406113537118,
+      "grad_norm": 37.08506393432617,
+      "learning_rate": 2.181222707423581e-05,
+      "loss": 5.9648,
+      "step": 2000
+    },
+    {
+      "epoch": 2.2925764192139737,
+      "grad_norm": 35.595909118652344,
+      "learning_rate": 2.1402838427947596e-05,
+      "loss": 5.8648,
+      "step": 2100
+    },
+    {
+      "epoch": 2.4017467248908297,
+      "grad_norm": 23.82405662536621,
+      "learning_rate": 2.099344978165939e-05,
+      "loss": 5.9043,
+      "step": 2200
+    },
+    {
+      "epoch": 2.5109170305676853,
+      "grad_norm": 30.872852325439453,
+      "learning_rate": 2.058406113537118e-05,
+      "loss": 5.8428,
+      "step": 2300
+    },
+    {
+      "epoch": 2.6200873362445414,
+      "grad_norm": 42.079261779785156,
+      "learning_rate": 2.0174672489082972e-05,
+      "loss": 5.8529,
+      "step": 2400
+    },
+    {
+      "epoch": 2.7292576419213974,
+      "grad_norm": 23.549190521240234,
+      "learning_rate": 1.976528384279476e-05,
+      "loss": 5.8328,
+      "step": 2500
+    },
+    {
+      "epoch": 2.8384279475982535,
+      "grad_norm": 32.223079681396484,
+      "learning_rate": 1.935589519650655e-05,
+      "loss": 5.8484,
+      "step": 2600
+    },
+    {
+      "epoch": 2.947598253275109,
+      "grad_norm": 25.67125129699707,
+      "learning_rate": 1.894650655021834e-05,
+      "loss": 5.5861,
+      "step": 2700
+    },
+    {
+      "epoch": 3.0,
+      "eval_avg_mae": 5.645811716715495,
+      "eval_loss": 5.645811080932617,
+      "eval_mae_lex": 4.994715213775635,
+      "eval_mae_sem": 3.6993861198425293,
+      "eval_mae_syn": 8.24333381652832,
+      "eval_runtime": 27.1472,
+      "eval_samples_per_second": 269.899,
+      "eval_steps_per_second": 8.435,
+      "step": 2748
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5783298700015872.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null