Training in progress, step 37000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +90 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00da868c16026f8b91fd852d53e5b1e8b84bd1c76aefa3ce6543ff5082c8a8c1
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:c033c68f7f85112dd0424df6a6c069e43bad62023f4f8046088b5f303d66757d
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04e0ccc68b635616af9e0dbead055411d758f4619095d018f21601b71ae1dad9
 size 1544

 version https://git-lfs.github.com/spec/v1
+oid sha256:801dfb4f56aec672f8a7307f1b9530439cf1a3e5150aec9ed045fd57278ee3b1
 size 1544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81484f3b03bf089df3397a87ac9d9ffd5e1f946de717b51932df743ee8d9f915
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:350f65f9d77fda04ddb0fb82bddcf712e278846103610b6be4eb0e5b91d1deaa
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d10178046632fe47bb7008cd9e1a9974e0ea49262160950299e919075603393
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa1f6feef07e5b1d8fea95579cd14290f66870371d42761bb6d273aa098f1986
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81382d5bc209ea226a1381f99c5863a7a3af33f40b32204afd2996013b6f09c3
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:08aff465a459746ab9dbe30f49ac4e0ea77e8a027d139d1bf09d3f39d9942cdb
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cf91a495853427b5f841ab1be3c35766ad0edbc12ff06e2c15160a47811ed22
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc995789ac7ace85eec5527f15f9a82c9f1388944ba2d5baa678f54ce3d8943
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 34000,
-  "best_metric": 0.987713634967804,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
-  "epoch": 2.8074763479732328,
   "eval_steps": 250,
-  "global_step": 36500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6286,6 +6286,92 @@
       "eval_samples_per_second": 57.54,
       "eval_steps_per_second": 14.385,
       "step": 36500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 36750,
+  "best_metric": 0.9847651720046997,
   "best_model_checkpoint": "./ar-diffusion-checkpoints-fixed/checkpoint-34000",
+  "epoch": 2.845934928082455,
   "eval_steps": 250,
+  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.54,
       "eval_steps_per_second": 14.385,
       "step": 36500
+    },
+    {
+      "epoch": 2.811322205984155,
+      "grad_norm": 0.9856983423233032,
+      "learning_rate": 1.2824974677297874e-05,
+      "loss": 0.9923,
+      "step": 36550
+    },
+    {
+      "epoch": 2.8151680639950776,
+      "grad_norm": 1.2112038135528564,
+      "learning_rate": 1.2565254655481392e-05,
+      "loss": 0.9388,
+      "step": 36600
+    },
+    {
+      "epoch": 2.8190139220059995,
+      "grad_norm": 1.1824342012405396,
+      "learning_rate": 1.230553463366491e-05,
+      "loss": 0.984,
+      "step": 36650
+    },
+    {
+      "epoch": 2.8228597800169215,
+      "grad_norm": 1.3278725147247314,
+      "learning_rate": 1.204581461184843e-05,
+      "loss": 0.9835,
+      "step": 36700
+    },
+    {
+      "epoch": 2.826705638027844,
+      "grad_norm": 1.4297553300857544,
+      "learning_rate": 1.1786094590031946e-05,
+      "loss": 0.9999,
+      "step": 36750
+    },
+    {
+      "epoch": 2.826705638027844,
+      "eval_loss": 0.9847651720046997,
+      "eval_runtime": 17.5097,
+      "eval_samples_per_second": 57.111,
+      "eval_steps_per_second": 14.278,
+      "step": 36750
+    },
+    {
+      "epoch": 2.8305514960387663,
+      "grad_norm": 1.1944117546081543,
+      "learning_rate": 1.1526374568215465e-05,
+      "loss": 0.9758,
+      "step": 36800
+    },
+    {
+      "epoch": 2.8343973540496883,
+      "grad_norm": 1.1629287004470825,
+      "learning_rate": 1.1266654546398983e-05,
+      "loss": 0.988,
+      "step": 36850
+    },
+    {
+      "epoch": 2.8382432120606107,
+      "grad_norm": 1.598382592201233,
+      "learning_rate": 1.1006934524582501e-05,
+      "loss": 0.9679,
+      "step": 36900
+    },
+    {
+      "epoch": 2.842089070071533,
+      "grad_norm": 0.9534172415733337,
+      "learning_rate": 1.0747214502766019e-05,
+      "loss": 0.9921,
+      "step": 36950
+    },
+    {
+      "epoch": 2.845934928082455,
+      "grad_norm": 1.5716655254364014,
+      "learning_rate": 1.0487494480949537e-05,
+      "loss": 0.9898,
+      "step": 37000
+    },
+    {
+      "epoch": 2.845934928082455,
+      "eval_loss": 0.9878412485122681,
+      "eval_runtime": 17.2808,
+      "eval_samples_per_second": 57.868,
+      "eval_steps_per_second": 14.467,
+      "step": 37000
     }
   ],
   "logging_steps": 50,