Training in progress, step 37500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c033c68f7f85112dd0424df6a6c069e43bad62023f4f8046088b5f303d66757d
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:23dcc181cec0e10d847e208901d6626875ec6b62c6c0f26d433995f3783e85d0
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:801dfb4f56aec672f8a7307f1b9530439cf1a3e5150aec9ed045fd57278ee3b1
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:7432e9c2d93150abfd716acce42331362afc030b8c095403869cbf1291225746
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:350f65f9d77fda04ddb0fb82bddcf712e278846103610b6be4eb0e5b91d1deaa
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b8434a82bb738c0cecb4adf19f6cc16b50060235313456c478572cc44126b33
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa1f6feef07e5b1d8fea95579cd14290f66870371d42761bb6d273aa098f1986
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c5a317d14f0c4fea42d2b4ca5f020a67142d647545709c1c9006f254a7d7349
+size 14308

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08aff465a459746ab9dbe30f49ac4e0ea77e8a027d139d1bf09d3f39d9942cdb
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4d13c8e281c1623531d4d497478b975ea082917bb2c61878d98cb5fb27c6af9
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:23ce717bb1ff7d19ce8b39673c5e006d14b3fec124190d834c88a63ab05da6d0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 36750,
   "best_metric": 0.9847651720046997,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
-  "epoch": 2.845934928082455,
   "eval_steps": 250,
-  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6372,6 +6372,92 @@
       "eval_samples_per_second": 57.868,
       "eval_steps_per_second": 14.467,
       "step": 37000
     }
   ],
   "logging_steps": 50,

   "best_global_step": 36750,
   "best_metric": 0.9847651720046997,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.8843935081916774,
   "eval_steps": 250,
+  "global_step": 37500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.868,
       "eval_steps_per_second": 14.467,
       "step": 37000
+    },
+    {
+      "epoch": 2.8497807860933775,
+      "grad_norm": 1.3013421297073364,
+      "learning_rate": 1.0227774459133055e-05,
+      "loss": 0.9717,
+      "step": 37050
+    },
+    {
+      "epoch": 2.8536266441043,
+      "grad_norm": 1.263071060180664,
+      "learning_rate": 9.968054437316573e-06,
+      "loss": 1.0259,
+      "step": 37100
+    },
+    {
+      "epoch": 2.857472502115222,
+      "grad_norm": 1.1513851881027222,
+      "learning_rate": 9.70833441550009e-06,
+      "loss": 1.0015,
+      "step": 37150
+    },
+    {
+      "epoch": 2.8613183601261443,
+      "grad_norm": 0.7431422472000122,
+      "learning_rate": 9.448614393683609e-06,
+      "loss": 0.999,
+      "step": 37200
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "grad_norm": 0.6744217872619629,
+      "learning_rate": 9.188894371867128e-06,
+      "loss": 0.9285,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8651642181370662,
+      "eval_loss": 0.994976282119751,
+      "eval_runtime": 17.3294,
+      "eval_samples_per_second": 57.705,
+      "eval_steps_per_second": 14.426,
+      "step": 37250
+    },
+    {
+      "epoch": 2.8690100761479886,
+      "grad_norm": 1.2962367534637451,
+      "learning_rate": 8.929174350050646e-06,
+      "loss": 0.9433,
+      "step": 37300
+    },
+    {
+      "epoch": 2.8728559341589106,
+      "grad_norm": 0.9955423474311829,
+      "learning_rate": 8.669454328234164e-06,
+      "loss": 1.0447,
+      "step": 37350
+    },
+    {
+      "epoch": 2.876701792169833,
+      "grad_norm": 0.5840064287185669,
+      "learning_rate": 8.409734306417682e-06,
+      "loss": 0.9504,
+      "step": 37400
+    },
+    {
+      "epoch": 2.8805476501807554,
+      "grad_norm": 1.0777620077133179,
+      "learning_rate": 8.1500142846012e-06,
+      "loss": 0.9635,
+      "step": 37450
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "grad_norm": 0.9312844276428223,
+      "learning_rate": 7.890294262784718e-06,
+      "loss": 1.005,
+      "step": 37500
+    },
+    {
+      "epoch": 2.8843935081916774,
+      "eval_loss": 0.9864250421524048,
+      "eval_runtime": 17.2238,
+      "eval_samples_per_second": 58.059,
+      "eval_steps_per_second": 14.515,
+      "step": 37500
     }
   ],
   "logging_steps": 50,