Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8c5d4ece648b2753a74a9446554fb4464d043740a9d561e97cf5f5e0703ef7d
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfa3cd709797d86c7eb07c24e54027e6b108bd94a23d93cb43cd6f0e94d95f4f
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a2334fe52fe7a1ac10a72dcfece4846c801be39d2503440934f0d635c677cd9
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:a873a10cc89e3fc21c6538408c5f06e54e601a9c85bf8be30612460a0c39b49c
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c00077af51df69ff67394727ea2c4492bcf35cfd4edcfc2fa23e3c3e76f1530c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04ff4091f2309295038e3330db54b7a835b9c806dac0cf921d4c6546f31852f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6f907450757c510bc85cf5ba3c442a20b76731dbae558c5d4cdc37061b46d99
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d42e03a0a3d94b2b0007a43190dd2041868878539beefabe7cf790df6d1d4f7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.0759239196777344,
-  "best_model_checkpoint": "miner_id_24/checkpoint-450",
-  "epoch": 0.345489443378119,
   "eval_steps": 50,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,6 +402,49 @@
       "eval_samples_per_second": 15.919,
       "eval_steps_per_second": 4.002,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -425,12 +468,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.768235176460288e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0734155178070068,
+  "best_model_checkpoint": "miner_id_24/checkpoint-500",
+  "epoch": 0.3838771593090211,
   "eval_steps": 50,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.919,
       "eval_steps_per_second": 4.002,
       "step": 450
+    },
+    {
+      "epoch": 0.3531669865642994,
+      "grad_norm": 1.207382082939148,
+      "learning_rate": 4.009414470383994e-06,
+      "loss": 0.9927,
+      "step": 460
+    },
+    {
+      "epoch": 0.36084452975047987,
+      "grad_norm": 1.4170714616775513,
+      "learning_rate": 2.261723324051111e-06,
+      "loss": 1.037,
+      "step": 470
+    },
+    {
+      "epoch": 0.3685220729366603,
+      "grad_norm": 1.47847580909729,
+      "learning_rate": 1.0072548852474675e-06,
+      "loss": 1.0271,
+      "step": 480
+    },
+    {
+      "epoch": 0.3761996161228407,
+      "grad_norm": 1.718285083770752,
+      "learning_rate": 2.5212079810819554e-07,
+      "loss": 1.0511,
+      "step": 490
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "grad_norm": 3.448530435562134,
+      "learning_rate": 0.0,
+      "loss": 1.0046,
+      "step": 500
+    },
+    {
+      "epoch": 0.3838771593090211,
+      "eval_loss": 1.0734155178070068,
+      "eval_runtime": 34.6444,
+      "eval_samples_per_second": 15.847,
+      "eval_steps_per_second": 3.983,
+      "step": 500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.729912582910771e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null