Training in progress, step 450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7708322f6f2ae0b3ae362c234870b0f46eedd25350ed70c2b5089815e789848d
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ac0dd6470aeaf933119e8adec87506edd50e34ef244bc4be2bc111bafac7fe9
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0707171e8bc8c714f3eb285bf25c8f573339187a9f2dc7fb13ad68bb2bb4e585
 size 162933844

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9c939c62a6f8d89ae3405aac942cc155a4f3278dc1f16cf465b01365351d91d
 size 162933844

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a694053997fb4718f925cbd68a9bfc7b79fc8eef8c18fbf50d63beb14cd55264
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff1d9539e09b7c36cf6b054c8fcfced3ce1a861812d8feb865f087854f471e3c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8d9346c4fcc90fb1ec8546736583b76a4fae6bc25cb93181337c187d15da94a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:70f0f789b56065211b8c0b1a5e2a97dd0b5b08a816bbbe288fb6f9c677282af9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7407906651496887,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.059769885939134335,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,135 @@
       "eval_samples_per_second": 13.964,
       "eval_steps_per_second": 3.492,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +430,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9640890727622246e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.725193440914154,
+  "best_model_checkpoint": "miner_id_24/checkpoint-450",
+  "epoch": 0.0896548289087015,
   "eval_steps": 50,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.964,
       "eval_steps_per_second": 3.492,
       "step": 300
+    },
+    {
+      "epoch": 0.06176221547043881,
+      "grad_norm": 0.30134573578834534,
+      "learning_rate": 9.733794785622253e-05,
+      "loss": 0.6773,
+      "step": 310
+    },
+    {
+      "epoch": 0.06375454500174328,
+      "grad_norm": 0.28048670291900635,
+      "learning_rate": 9.202138944469168e-05,
+      "loss": 0.6969,
+      "step": 320
+    },
+    {
+      "epoch": 0.06574687453304777,
+      "grad_norm": 0.32149261236190796,
+      "learning_rate": 8.672744727162781e-05,
+      "loss": 0.7026,
+      "step": 330
+    },
+    {
+      "epoch": 0.06773920406435224,
+      "grad_norm": 0.3494367301464081,
+      "learning_rate": 8.147112759128859e-05,
+      "loss": 0.7413,
+      "step": 340
+    },
+    {
+      "epoch": 0.06973153359565672,
+      "grad_norm": 0.4458478093147278,
+      "learning_rate": 7.626733001288851e-05,
+      "loss": 0.7612,
+      "step": 350
+    },
+    {
+      "epoch": 0.06973153359565672,
+      "eval_loss": 0.735527515411377,
+      "eval_runtime": 604.4756,
+      "eval_samples_per_second": 13.986,
+      "eval_steps_per_second": 3.497,
+      "step": 350
+    },
+    {
+      "epoch": 0.0717238631269612,
+      "grad_norm": 0.2828379273414612,
+      "learning_rate": 7.113080526603792e-05,
+      "loss": 0.6987,
+      "step": 360
+    },
+    {
+      "epoch": 0.07371619265826568,
+      "grad_norm": 0.3044438362121582,
+      "learning_rate": 6.607611338819697e-05,
+      "loss": 0.7014,
+      "step": 370
+    },
+    {
+      "epoch": 0.07570852218957015,
+      "grad_norm": 0.35144269466400146,
+      "learning_rate": 6.111758245266794e-05,
+      "loss": 0.7053,
+      "step": 380
+    },
+    {
+      "epoch": 0.07770085172087464,
+      "grad_norm": 0.37965935468673706,
+      "learning_rate": 5.626926795411447e-05,
+      "loss": 0.7327,
+      "step": 390
+    },
+    {
+      "epoch": 0.07969318125217911,
+      "grad_norm": 0.4066285192966461,
+      "learning_rate": 5.1544912966734994e-05,
+      "loss": 0.7586,
+      "step": 400
+    },
+    {
+      "epoch": 0.07969318125217911,
+      "eval_loss": 0.7312402129173279,
+      "eval_runtime": 604.9779,
+      "eval_samples_per_second": 13.974,
+      "eval_steps_per_second": 3.494,
+      "step": 400
+    },
+    {
+      "epoch": 0.08168551078348359,
+      "grad_norm": 0.28389105200767517,
+      "learning_rate": 4.695790918802576e-05,
+      "loss": 0.6942,
+      "step": 410
+    },
+    {
+      "epoch": 0.08367784031478806,
+      "grad_norm": 0.24920526146888733,
+      "learning_rate": 4.252125897855932e-05,
+      "loss": 0.7292,
+      "step": 420
+    },
+    {
+      "epoch": 0.08567016984609255,
+      "grad_norm": 0.32768023014068604,
+      "learning_rate": 3.824753850538082e-05,
+      "loss": 0.6935,
+      "step": 430
+    },
+    {
+      "epoch": 0.08766249937739702,
+      "grad_norm": 0.2882814407348633,
+      "learning_rate": 3.414886209349615e-05,
+      "loss": 0.6909,
+      "step": 440
+    },
+    {
+      "epoch": 0.0896548289087015,
+      "grad_norm": 0.35527971386909485,
+      "learning_rate": 3.0236847886501542e-05,
+      "loss": 0.7639,
+      "step": 450
+    },
+    {
+      "epoch": 0.0896548289087015,
+      "eval_loss": 0.725193440914154,
+      "eval_runtime": 604.3416,
+      "eval_samples_per_second": 13.989,
+      "eval_steps_per_second": 3.498,
+      "step": 450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.946133609143337e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null