Training in progress, step 39000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d8e43e89b9bebeb74f5a3f59777b202fc9109955aeb97f2af35e0e442d7a452
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:a139886331adb4e20a2cf0a3c5af9b5f2e65f9e8a22ea581f613fe69c8230374
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fc4122df013355a6969e434d41cc8fcea9f612e4d30ef5a56450eacb41efce6
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:b66febf4097ae3229924821697899403e798fb3decdf8af64ca00e226e94d585
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e190ed0010bdd235ac8bd29945114b8053051431b822dc222d819209c07d8d07
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:146112c496b30850ec3daab83eeeeb5a6d65b3383ffbc018bb4b599d80dbfb4a
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbb02a8ec0b72b513f298ee44dab19beae5aff0d3cdf5658defb30f6a23c5a12
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:293b3b1a40f4f82f68c89e99576e8bbfcbf44af3a7128a2e9826fa2b3fe67037
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ccae9e6b2d4eb2fcfe967592fa19a2d659f2463aeb2c7a929d0ba46b4b319dc
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:59c3af1791a01f53c3df7f3904e033e110d744af1cb0dc4801aabd70f525b6c8
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b6ef3f8e20f0529905c960a3004917dd68d119006b5c8315cb84a5724c015e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c8fbb138501cd802a2e70b0dc10395489b702fd3f7fdbf97892058143e7598
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 38000,
   "best_metric": 0.98431396484375,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-38000",
-  "epoch": 2.961310668410122,
   "eval_steps": 250,
-  "global_step": 38500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6630,6 +6630,92 @@
       "eval_samples_per_second": 57.528,
       "eval_steps_per_second": 14.382,
       "step": 38500
     }
   ],
   "logging_steps": 50,

   "best_global_step": 38000,
   "best_metric": 0.98431396484375,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-38000",
+  "epoch": 2.999769248519345,
   "eval_steps": 250,
+  "global_step": 39000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.528,
       "eval_steps_per_second": 14.382,
       "step": 38500
+    },
+    {
+      "epoch": 2.9651565264210444,
+      "grad_norm": 0.8041125535964966,
+      "learning_rate": 2.4413682050749296e-06,
+      "loss": 0.9631,
+      "step": 38550
+    },
+    {
+      "epoch": 2.969002384431967,
+      "grad_norm": 1.0755919218063354,
+      "learning_rate": 2.1816481832584475e-06,
+      "loss": 0.9689,
+      "step": 38600
+    },
+    {
+      "epoch": 2.972848242442889,
+      "grad_norm": 0.8630362153053284,
+      "learning_rate": 1.9219281614419654e-06,
+      "loss": 0.9822,
+      "step": 38650
+    },
+    {
+      "epoch": 2.976694100453811,
+      "grad_norm": 0.6994553804397583,
+      "learning_rate": 1.662208139625484e-06,
+      "loss": 0.9706,
+      "step": 38700
+    },
+    {
+      "epoch": 2.9805399584647336,
+      "grad_norm": 1.1746189594268799,
+      "learning_rate": 1.4024881178090021e-06,
+      "loss": 0.9695,
+      "step": 38750
+    },
+    {
+      "epoch": 2.9805399584647336,
+      "eval_loss": 0.9868382215499878,
+      "eval_runtime": 17.3783,
+      "eval_samples_per_second": 57.543,
+      "eval_steps_per_second": 14.386,
+      "step": 38750
+    },
+    {
+      "epoch": 2.9843858164756556,
+      "grad_norm": 1.0636792182922363,
+      "learning_rate": 1.14276809599252e-06,
+      "loss": 1.0233,
+      "step": 38800
+    },
+    {
+      "epoch": 2.988231674486578,
+      "grad_norm": 0.8173992037773132,
+      "learning_rate": 8.830480741760383e-07,
+      "loss": 0.963,
+      "step": 38850
+    },
+    {
+      "epoch": 2.9920775324975004,
+      "grad_norm": 1.591539978981018,
+      "learning_rate": 6.233280523595564e-07,
+      "loss": 0.949,
+      "step": 38900
+    },
+    {
+      "epoch": 2.9959233905084224,
+      "grad_norm": 0.6467046737670898,
+      "learning_rate": 3.636080305430746e-07,
+      "loss": 0.9649,
+      "step": 38950
+    },
+    {
+      "epoch": 2.999769248519345,
+      "grad_norm": 0.9910799860954285,
+      "learning_rate": 1.0388800872659275e-07,
+      "loss": 1.0502,
+      "step": 39000
+    },
+    {
+      "epoch": 2.999769248519345,
+      "eval_loss": 0.9894677400588989,
+      "eval_runtime": 17.4751,
+      "eval_samples_per_second": 57.224,
+      "eval_steps_per_second": 14.306,
+      "step": 39000
     }
   ],
   "logging_steps": 50,