Training in progress, step 25000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bc54f61ae85f9bb8331e1cdd5923e3fd960989060b059e73b0d0e134dae9e8f
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:6635748f5efd9f5844c8d4b5d5db81b7d2ecb035e0b0b74854654c135879fa40
 size 36730224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35291a9f57ededb6486e5a5291f2f75b65ad3ee7378c172fe3cff039858844f4
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad541eebf67a51f73b18019a22769780ac860d88ba5ea0fa90f19a9d6cea9ec7
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6abd220bb5c699b08784d9e5bd7e4f3c387ae6cf3a2fc509bcb49366bfaee15
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4a89f558d7b243194fee72d6e3b515995ba03b6bdbb2a1ac92b9b326a12ba3e
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ead8696fbf0049adb3c84fc53d3c6dc113682fab1d3e945183397e530adbbee
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a37acbb5f6130f7db2eedbc963d0b24fea22de7a0acc314ee6d2189d860dec7
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d220408f294f0cc03e84f4b2538adfda082b3a1de023a6d0f995deed07fa75a2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:32c12577cf6cc4241331592a413ca96d437bc677a535a9ee4eb64f282b42fe2f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 24500,
   "best_metric": 1.4431298971176147,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-24500",
-  "epoch": 1.884470425351896,
   "eval_steps": 250,
-  "global_step": 24500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4222,6 +4222,92 @@
       "eval_samples_per_second": 55.613,
       "eval_steps_per_second": 13.903,
       "step": 24500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 24500,
   "best_metric": 1.4431298971176147,
   "best_model_checkpoint": "./ar-diffusion-checkpoints/checkpoint-24500",
+  "epoch": 1.9229290054611183,
   "eval_steps": 250,
+  "global_step": 25000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 55.613,
       "eval_steps_per_second": 13.903,
       "step": 24500
+    },
+    {
+      "epoch": 1.8883162833628182,
+      "grad_norm": 1.8027464151382446,
+      "learning_rate": 1.4220800705856402e-05,
+      "loss": 1.4855,
+      "step": 24550
+    },
+    {
+      "epoch": 1.8921621413737406,
+      "grad_norm": 1.139756679534912,
+      "learning_rate": 1.3963457225837285e-05,
+      "loss": 1.3773,
+      "step": 24600
+    },
+    {
+      "epoch": 1.8960079993846626,
+      "grad_norm": 1.377536654472351,
+      "learning_rate": 1.3706113745818166e-05,
+      "loss": 1.4274,
+      "step": 24650
+    },
+    {
+      "epoch": 1.899853857395585,
+      "grad_norm": 1.2132219076156616,
+      "learning_rate": 1.3448770265799051e-05,
+      "loss": 1.3772,
+      "step": 24700
+    },
+    {
+      "epoch": 1.9036997154065072,
+      "grad_norm": 1.7106857299804688,
+      "learning_rate": 1.3191426785779932e-05,
+      "loss": 1.41,
+      "step": 24750
+    },
+    {
+      "epoch": 1.9036997154065072,
+      "eval_loss": 1.472328782081604,
+      "eval_runtime": 18.0789,
+      "eval_samples_per_second": 55.313,
+      "eval_steps_per_second": 13.828,
+      "step": 24750
+    },
+    {
+      "epoch": 1.9075455734174294,
+      "grad_norm": 0.9809736013412476,
+      "learning_rate": 1.2939230175361197e-05,
+      "loss": 1.4547,
+      "step": 24800
+    },
+    {
+      "epoch": 1.9113914314283518,
+      "grad_norm": 1.476722240447998,
+      "learning_rate": 1.2681886695342082e-05,
+      "loss": 1.4546,
+      "step": 24850
+    },
+    {
+      "epoch": 1.9152372894392737,
+      "grad_norm": 2.078511953353882,
+      "learning_rate": 1.2424543215322965e-05,
+      "loss": 1.4971,
+      "step": 24900
+    },
+    {
+      "epoch": 1.9190831474501961,
+      "grad_norm": 0.7233028411865234,
+      "learning_rate": 1.2167199735303847e-05,
+      "loss": 1.3622,
+      "step": 24950
+    },
+    {
+      "epoch": 1.9229290054611183,
+      "grad_norm": 1.3686310052871704,
+      "learning_rate": 1.1909856255284731e-05,
+      "loss": 1.5232,
+      "step": 25000
+    },
+    {
+      "epoch": 1.9229290054611183,
+      "eval_loss": 1.461082935333252,
+      "eval_runtime": 18.2695,
+      "eval_samples_per_second": 54.736,
+      "eval_steps_per_second": 13.684,
+      "step": 25000
     }
   ],
   "logging_steps": 50,