Training in progress, epoch 2, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +80 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:737bff9e53771f919fd8e65ceb4d4c2d6f17ab4d48951f73831dec9db5e974f5
 size 442668636

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e2732a6d21b842687bf63e8ed4677683d4c127cb8c9417afe437147b86b7919
 size 442668636

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c15aed075594926bdfb8b0a3fd65422193e443f12843c149dfd9d5c185c0f0
 size 885457146

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdce2c84944c39c9782d1ca61591a7c11485d3a4ca5f9456c59f7d8b41bf5d5f
 size 885457146

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2477d3715e68f2549c9ecd6a18f4a17a0bfb0a625f50ce4fafa0aa2652affb1c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc930492c5e0375b00eb1faa8503ca1a4cd6495e47aeaa009df65f9bce5b16e3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00b7251b468e4d3cb44eba0757f056754012975e532dc253bb53666972923e5b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9707f7f99f72a12c2631595b1bcc8638efdeda09ae580feffc3a464b56550f1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 7.529487609863281,
-  "best_model_checkpoint": "./results/checkpoint-916",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -82,6 +82,81 @@
       "eval_samples_per_second": 269.609,
       "eval_steps_per_second": 8.426,
       "step": 916
     }
   ],
   "logging_steps": 100,
@@ -101,7 +176,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1927766233338624.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 6.067600250244141,
+  "best_model_checkpoint": "./results/checkpoint-1832",
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 1832,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 269.609,
       "eval_steps_per_second": 8.426,
       "step": 916
+    },
+    {
+      "epoch": 1.091703056768559,
+      "grad_norm": 26.391666412353516,
+      "learning_rate": 2.5906113537117905e-05,
+      "loss": 6.7699,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2008733624454149,
+      "grad_norm": 22.994029998779297,
+      "learning_rate": 2.5496724890829696e-05,
+      "loss": 6.5552,
+      "step": 1100
+    },
+    {
+      "epoch": 1.3100436681222707,
+      "grad_norm": 20.722883224487305,
+      "learning_rate": 2.5087336244541486e-05,
+      "loss": 6.5897,
+      "step": 1200
+    },
+    {
+      "epoch": 1.4192139737991267,
+      "grad_norm": 32.02668380737305,
+      "learning_rate": 2.4677947598253277e-05,
+      "loss": 6.5073,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5283842794759825,
+      "grad_norm": 32.40359115600586,
+      "learning_rate": 2.4268558951965064e-05,
+      "loss": 6.4684,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6375545851528384,
+      "grad_norm": 47.73025131225586,
+      "learning_rate": 2.3859170305676855e-05,
+      "loss": 6.3165,
+      "step": 1500
+    },
+    {
+      "epoch": 1.7467248908296944,
+      "grad_norm": 47.35511016845703,
+      "learning_rate": 2.344978165938865e-05,
+      "loss": 6.2866,
+      "step": 1600
+    },
+    {
+      "epoch": 1.8558951965065502,
+      "grad_norm": 44.51765441894531,
+      "learning_rate": 2.3040393013100437e-05,
+      "loss": 6.3404,
+      "step": 1700
+    },
+    {
+      "epoch": 1.965065502183406,
+      "grad_norm": 26.496959686279297,
+      "learning_rate": 2.2631004366812227e-05,
+      "loss": 6.1681,
+      "step": 1800
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_mae": 6.067600250244141,
+      "eval_loss": 6.067600250244141,
+      "eval_mae_lex": 5.595421314239502,
+      "eval_mae_sem": 4.1164045333862305,
+      "eval_mae_syn": 8.490975379943848,
+      "eval_runtime": 27.2193,
+      "eval_samples_per_second": 269.184,
+      "eval_steps_per_second": 8.413,
+      "step": 1832
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 3855532466677248.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null