Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +134 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82b5aa30e1a5893f0eb056684ec50b6dee95e4817afcc22b677c62cc1b9818e1
 size 100966336

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd40c75455960cc69b93c8a0949e9f0a87de121a1ac9c5bf36a70f9902fe6aaa
 size 100966336

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25ee3aca9dc1b20671dc619e34af7758679b970840b0f57dd86e89b672942e5f
-size 51613348

 version https://git-lfs.github.com/spec/v1
+oid sha256:06e76ac9e7b5a85a54d496a38c698975c341f44e899145d37f311bcd9912144f
+size 51613668

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deb36ff945ed06d7cf988ad14ccb571fbaad9c693f2bb9d17cde1e0ec3bb3f5f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:019cea10a2ea963ce36b980aa95f96cb1364758a9b5a5a0a5acdc9b99d5f64ec
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596785cc644037bdf9b1374ba5340995054de5f4bde563878d8bc4f03a7aa10e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8d9346c4fcc90fb1ec8546736583b76a4fae6bc25cb93181337c187d15da94a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.3954179286956787,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.015467505349178933,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,135 @@
       "eval_samples_per_second": 48.856,
       "eval_steps_per_second": 12.215,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -172,7 +301,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1409380276568064e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.2416651248931885,
+  "best_model_checkpoint": "miner_id_24/checkpoint-300",
+  "epoch": 0.030935010698357867,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 48.856,
       "eval_steps_per_second": 12.215,
       "step": 150
+    },
+    {
+      "epoch": 0.01649867237245753,
+      "grad_norm": 0.597623348236084,
+      "learning_rate": 0.0001697631521134985,
+      "loss": 1.8683,
+      "step": 160
+    },
+    {
+      "epoch": 0.017529839395736123,
+      "grad_norm": 1.2859327793121338,
+      "learning_rate": 0.00016585113790650388,
+      "loss": 2.1469,
+      "step": 170
+    },
+    {
+      "epoch": 0.01856100641901472,
+      "grad_norm": 1.5065349340438843,
+      "learning_rate": 0.0001617524614946192,
+      "loss": 2.5904,
+      "step": 180
+    },
+    {
+      "epoch": 0.019592173442293314,
+      "grad_norm": 2.6285014152526855,
+      "learning_rate": 0.0001574787410214407,
+      "loss": 2.2524,
+      "step": 190
+    },
+    {
+      "epoch": 0.02062334046557191,
+      "grad_norm": 4.162689685821533,
+      "learning_rate": 0.00015304209081197425,
+      "loss": 2.2073,
+      "step": 200
+    },
+    {
+      "epoch": 0.02062334046557191,
+      "eval_loss": 2.3460395336151123,
+      "eval_runtime": 334.257,
+      "eval_samples_per_second": 48.867,
+      "eval_steps_per_second": 12.218,
+      "step": 200
+    },
+    {
+      "epoch": 0.021654507488850505,
+      "grad_norm": 0.6041058301925659,
+      "learning_rate": 0.00014845508703326504,
+      "loss": 1.8224,
+      "step": 210
+    },
+    {
+      "epoch": 0.022685674512129102,
+      "grad_norm": 1.3182774782180786,
+      "learning_rate": 0.00014373073204588556,
+      "loss": 2.2141,
+      "step": 220
+    },
+    {
+      "epoch": 0.023716841535407696,
+      "grad_norm": 1.494461178779602,
+      "learning_rate": 0.00013888241754733208,
+      "loss": 2.7371,
+      "step": 230
+    },
+    {
+      "epoch": 0.024748008558686294,
+      "grad_norm": 2.414562225341797,
+      "learning_rate": 0.00013392388661180303,
+      "loss": 2.2599,
+      "step": 240
+    },
+    {
+      "epoch": 0.025779175581964887,
+      "grad_norm": 3.806607484817505,
+      "learning_rate": 0.0001288691947339621,
+      "loss": 2.1804,
+      "step": 250
+    },
+    {
+      "epoch": 0.025779175581964887,
+      "eval_loss": 2.274019956588745,
+      "eval_runtime": 333.7217,
+      "eval_samples_per_second": 48.945,
+      "eval_steps_per_second": 12.238,
+      "step": 250
+    },
+    {
+      "epoch": 0.026810342605243485,
+      "grad_norm": 0.5745736360549927,
+      "learning_rate": 0.0001237326699871115,
+      "loss": 1.7065,
+      "step": 260
+    },
+    {
+      "epoch": 0.02784150962852208,
+      "grad_norm": 1.216685175895691,
+      "learning_rate": 0.00011852887240871145,
+      "loss": 2.2073,
+      "step": 270
+    },
+    {
+      "epoch": 0.028872676651800676,
+      "grad_norm": 1.3834314346313477,
+      "learning_rate": 0.00011327255272837221,
+      "loss": 2.6267,
+      "step": 280
+    },
+    {
+      "epoch": 0.02990384367507927,
+      "grad_norm": 2.0821757316589355,
+      "learning_rate": 0.00010797861055530831,
+      "loss": 2.2572,
+      "step": 290
+    },
+    {
+      "epoch": 0.030935010698357867,
+      "grad_norm": 4.278872489929199,
+      "learning_rate": 0.00010266205214377748,
+      "loss": 2.1662,
+      "step": 300
+    },
+    {
+      "epoch": 0.030935010698357867,
+      "eval_loss": 2.2416651248931885,
+      "eval_runtime": 333.1876,
+      "eval_samples_per_second": 49.023,
+      "eval_steps_per_second": 12.257,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.281876055313613e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null