Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a208b33f7f3aae36f2328b2d5cbdb5009695cc2c815e52479795eb05eb6cbdf8
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:5be06d89636136f65723801547e9387887f12e3651b7be197af26ba4e1e2eeea
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:640e1827c18f82e16746dd3874f498a42240daf00639393548c57b0e957c02d8
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce932894d403155e8c034c3855311100c52f923afc18c0a79b27bf478167c715
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:780779f4217bd54d35e6d1d269c0c162db9a7298933547b3729ce69ac97e4ae6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8d49a562b2fcf037d4f0d8fc6a0a49bb0f67ceec737e0d51bc552357f1531b2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb7fb5f22874147e56941b0c2b0e6e106f9317ff78b343462a5df511f2b8d1e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3090df11bc2445b62bc263a9812782b2cdb94f2d343087e4b12056e17b9122a5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2388317584991455,
-  "best_model_checkpoint": "miner_id_24/checkpoint-300",
-  "epoch": 0.004516779837094807,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -273,6 +273,92 @@
       "eval_samples_per_second": 14.404,
       "eval_steps_per_second": 3.601,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -301,7 +387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.505464808341504e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1870886087417603,
+  "best_model_checkpoint": "miner_id_24/checkpoint-400",
+  "epoch": 0.00602237311612641,
   "eval_steps": 50,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.404,
       "eval_steps_per_second": 3.601,
       "step": 300
+    },
+    {
+      "epoch": 0.004667339164997967,
+      "grad_norm": 0.8905961513519287,
+      "learning_rate": 7.997724001423507e-05,
+      "loss": 0.7575,
+      "step": 310
+    },
+    {
+      "epoch": 0.004817898492901128,
+      "grad_norm": 1.1624165773391724,
+      "learning_rate": 7.289870709344306e-05,
+      "loss": 0.9946,
+      "step": 320
+    },
+    {
+      "epoch": 0.004968457820804288,
+      "grad_norm": 1.5987695455551147,
+      "learning_rate": 6.597900439462128e-05,
+      "loss": 1.2912,
+      "step": 330
+    },
+    {
+      "epoch": 0.005119017148707448,
+      "grad_norm": 2.1535630226135254,
+      "learning_rate": 5.9251844013752326e-05,
+      "loss": 1.3239,
+      "step": 340
+    },
+    {
+      "epoch": 0.005269576476610608,
+      "grad_norm": 5.108974456787109,
+      "learning_rate": 5.275000000000002e-05,
+      "loss": 1.2387,
+      "step": 350
+    },
+    {
+      "epoch": 0.005269576476610608,
+      "eval_loss": 1.1993634700775146,
+      "eval_runtime": 1938.8615,
+      "eval_samples_per_second": 14.424,
+      "eval_steps_per_second": 3.606,
+      "step": 350
+    },
+    {
+      "epoch": 0.0054201358045137685,
+      "grad_norm": 0.8182064294815063,
+      "learning_rate": 4.650514868383623e-05,
+      "loss": 0.8003,
+      "step": 360
+    },
+    {
+      "epoch": 0.005570695132416929,
+      "grad_norm": 1.302087426185608,
+      "learning_rate": 4.054771435314305e-05,
+      "loss": 1.1316,
+      "step": 370
+    },
+    {
+      "epoch": 0.005721254460320089,
+      "grad_norm": 1.52027428150177,
+      "learning_rate": 3.4906721029140495e-05,
+      "loss": 1.3148,
+      "step": 380
+    },
+    {
+      "epoch": 0.00587181378822325,
+      "grad_norm": 1.333868384361267,
+      "learning_rate": 2.9609651064272323e-05,
+      "loss": 1.2688,
+      "step": 390
+    },
+    {
+      "epoch": 0.00602237311612641,
+      "grad_norm": 2.2150914669036865,
+      "learning_rate": 2.468231125094783e-05,
+      "loss": 1.2386,
+      "step": 400
+    },
+    {
+      "epoch": 0.00602237311612641,
+      "eval_loss": 1.1870886087417603,
+      "eval_runtime": 1935.8413,
+      "eval_samples_per_second": 14.446,
+      "eval_steps_per_second": 3.612,
+      "step": 400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.66452486792151e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null