Training in progress, step 4000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +84 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c978c1944e0035df8707d50978324cd2fe744bc92a509226099da71e761ef8e
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:df3dc42fcc062c9a89ae6e7ea757b5fb2d753a0e13cdc868895cd4c209f98699
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1811fce2182455da25735d34331196cb181f0f779745ee3d7bf2eb09f42b7b4
 size 591208618

 version https://git-lfs.github.com/spec/v1
+oid sha256:c384a780131306337e696be57a2b958a4e3a371f4b77faf1b07cb412a076239e
 size 591208618

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89473c9e743c560beae052d379c8b5909df539a4c27ccd7585b10c27a0c916f5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8221ed7296c95f1c75b140fa25630822cdf3c0fa6bf3265b32b3687272289853
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb0e788a332b6bf63ef51bc8c958fe1595ea404b5da922f613e5b5fbb2af155d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:26036ade73b34529a59dfe3f217f7cac319696cef41527ebf633fee3de40316d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.6864949464797974,
-  "best_model_checkpoint": "miner_id_24/checkpoint-3500",
-  "epoch": 0.33851994245160977,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -561,6 +561,84 @@
       "eval_samples_per_second": 24.259,
       "eval_steps_per_second": 6.065,
       "step": 3500
     }
   ],
   "logging_steps": 50,
@@ -584,12 +662,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.525745935817114e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6836225986480713,
+  "best_model_checkpoint": "miner_id_24/checkpoint-4000",
+  "epoch": 0.38687993423041117,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 24.259,
       "eval_steps_per_second": 6.065,
       "step": 3500
+    },
+    {
+      "epoch": 0.3433559416294899,
+      "grad_norm": 1.3484987020492554,
+      "learning_rate": 7.050737668632502e-06,
+      "loss": 1.7132,
+      "step": 3550
+    },
+    {
+      "epoch": 0.34819194080737004,
+      "grad_norm": 1.4851126670837402,
+      "learning_rate": 5.583796048734715e-06,
+      "loss": 1.6666,
+      "step": 3600
+    },
+    {
+      "epoch": 0.3530279399852502,
+      "grad_norm": 1.164219856262207,
+      "learning_rate": 4.283784887996112e-06,
+      "loss": 1.7128,
+      "step": 3650
+    },
+    {
+      "epoch": 0.35786393916313036,
+      "grad_norm": 1.160065770149231,
+      "learning_rate": 3.1528128092733565e-06,
+      "loss": 1.6667,
+      "step": 3700
+    },
+    {
+      "epoch": 0.3626999383410105,
+      "grad_norm": 1.2768871784210205,
+      "learning_rate": 2.1927142534139574e-06,
+      "loss": 1.6975,
+      "step": 3750
+    },
+    {
+      "epoch": 0.36753593751889063,
+      "grad_norm": 1.3569271564483643,
+      "learning_rate": 1.4050465037864562e-06,
+      "loss": 1.7084,
+      "step": 3800
+    },
+    {
+      "epoch": 0.37237193669677077,
+      "grad_norm": 1.2699822187423706,
+      "learning_rate": 7.910871603611439e-07,
+      "loss": 1.6869,
+      "step": 3850
+    },
+    {
+      "epoch": 0.3772079358746509,
+      "grad_norm": 1.3335933685302734,
+      "learning_rate": 3.5183206743822263e-07,
+      "loss": 1.6952,
+      "step": 3900
+    },
+    {
+      "epoch": 0.38204393505253104,
+      "grad_norm": 1.3161271810531616,
+      "learning_rate": 8.799369838469983e-08,
+      "loss": 1.6841,
+      "step": 3950
+    },
+    {
+      "epoch": 0.38687993423041117,
+      "grad_norm": 1.3024942874908447,
+      "learning_rate": 0.0,
+      "loss": 1.6754,
+      "step": 4000
+    },
+    {
+      "epoch": 0.38687993423041117,
+      "eval_loss": 1.6836225986480713,
+      "eval_runtime": 718.0098,
+      "eval_samples_per_second": 24.253,
+      "eval_steps_per_second": 6.064,
+      "step": 4000
     }
   ],
   "logging_steps": 50,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0886469589244314e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null