Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cbb4a5f515b492e590ae91fec4d1076eb4e88cc36ebd31107a125f52c5dfc60
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:e788effba5da71f5987d0f1e62afa342c18c3694c70f6496db41c6ac429fa984
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b65c6bf1320069028e3202b1d832a20e85ea88f2b27f92aed5216ab6b4056cb
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:5422b85691c4a14a7810e37864bf44014dc4fcd310e151ce23b16836247b4457
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aef682007700f94b493da4f62a6fd8f6d1fdb566ca87d0878af153f39652acef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c687e1d9b6b835260f69e5b8582f43840e599a53f43087fd0213ae6d297f05
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7381904125213623,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.006701177731986397,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 12.62,
       "eval_steps_per_second": 3.155,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4810846062863974e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6861550807952881,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.010051766597979595,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.62,
       "eval_steps_per_second": 3.155,
       "step": 100
+    },
+    {
+      "epoch": 0.00676818950930626,
+      "grad_norm": 3.4336345195770264,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 2.2992,
+      "step": 101
+    },
+    {
+      "epoch": 0.006835201286626125,
+      "grad_norm": 2.7011988162994385,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 2.2436,
+      "step": 102
+    },
+    {
+      "epoch": 0.006902213063945988,
+      "grad_norm": 2.623509407043457,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 2.6087,
+      "step": 103
+    },
+    {
+      "epoch": 0.0069692248412658525,
+      "grad_norm": 2.6322193145751953,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 2.6776,
+      "step": 104
+    },
+    {
+      "epoch": 0.007036236618585716,
+      "grad_norm": 2.598435878753662,
+      "learning_rate": 5e-05,
+      "loss": 2.4349,
+      "step": 105
+    },
+    {
+      "epoch": 0.00710324839590558,
+      "grad_norm": 2.986523151397705,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 2.6434,
+      "step": 106
+    },
+    {
+      "epoch": 0.007170260173225445,
+      "grad_norm": 2.7807955741882324,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 2.3435,
+      "step": 107
+    },
+    {
+      "epoch": 0.007237271950545308,
+      "grad_norm": 3.3481178283691406,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 2.6426,
+      "step": 108
+    },
+    {
+      "epoch": 0.007304283727865173,
+      "grad_norm": 3.0154755115509033,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 2.2395,
+      "step": 109
+    },
+    {
+      "epoch": 0.007371295505185036,
+      "grad_norm": 3.805389881134033,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 2.3782,
+      "step": 110
+    },
+    {
+      "epoch": 0.0074383072825049005,
+      "grad_norm": 3.2649686336517334,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 2.1778,
+      "step": 111
+    },
+    {
+      "epoch": 0.007505319059824764,
+      "grad_norm": 3.6283347606658936,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 2.5709,
+      "step": 112
+    },
+    {
+      "epoch": 0.007572330837144628,
+      "grad_norm": 3.476731777191162,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 2.5964,
+      "step": 113
+    },
+    {
+      "epoch": 0.007639342614464492,
+      "grad_norm": 3.379956007003784,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 2.4988,
+      "step": 114
+    },
+    {
+      "epoch": 0.007706354391784356,
+      "grad_norm": 3.687070846557617,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 2.6037,
+      "step": 115
+    },
+    {
+      "epoch": 0.00777336616910422,
+      "grad_norm": 3.569629192352295,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 2.33,
+      "step": 116
+    },
+    {
+      "epoch": 0.007840377946424084,
+      "grad_norm": 3.511577844619751,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 2.7223,
+      "step": 117
+    },
+    {
+      "epoch": 0.007907389723743947,
+      "grad_norm": 3.7060160636901855,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 2.6752,
+      "step": 118
+    },
+    {
+      "epoch": 0.007974401501063813,
+      "grad_norm": 3.7573060989379883,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 2.7462,
+      "step": 119
+    },
+    {
+      "epoch": 0.008041413278383676,
+      "grad_norm": 4.448085784912109,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 2.836,
+      "step": 120
+    },
+    {
+      "epoch": 0.00810842505570354,
+      "grad_norm": 3.845568895339966,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 2.4517,
+      "step": 121
+    },
+    {
+      "epoch": 0.008175436833023403,
+      "grad_norm": 3.9906766414642334,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 2.8422,
+      "step": 122
+    },
+    {
+      "epoch": 0.008242448610343268,
+      "grad_norm": 4.061316967010498,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 2.745,
+      "step": 123
+    },
+    {
+      "epoch": 0.008309460387663132,
+      "grad_norm": 4.211214065551758,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 2.57,
+      "step": 124
+    },
+    {
+      "epoch": 0.008376472164982995,
+      "grad_norm": 4.14617919921875,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 2.5636,
+      "step": 125
+    },
+    {
+      "epoch": 0.008443483942302859,
+      "grad_norm": 4.362563133239746,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 3.0273,
+      "step": 126
+    },
+    {
+      "epoch": 0.008510495719622724,
+      "grad_norm": 4.220723628997803,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 2.6382,
+      "step": 127
+    },
+    {
+      "epoch": 0.008577507496942588,
+      "grad_norm": 4.606372356414795,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 2.8578,
+      "step": 128
+    },
+    {
+      "epoch": 0.008644519274262451,
+      "grad_norm": 4.473711967468262,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 2.9329,
+      "step": 129
+    },
+    {
+      "epoch": 0.008711531051582316,
+      "grad_norm": 4.153161525726318,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 2.5251,
+      "step": 130
+    },
+    {
+      "epoch": 0.00877854282890218,
+      "grad_norm": 4.623281002044678,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 2.7656,
+      "step": 131
+    },
+    {
+      "epoch": 0.008845554606222043,
+      "grad_norm": 4.800572872161865,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 2.6164,
+      "step": 132
+    },
+    {
+      "epoch": 0.008912566383541907,
+      "grad_norm": 5.332072734832764,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 2.707,
+      "step": 133
+    },
+    {
+      "epoch": 0.008979578160861772,
+      "grad_norm": 5.535910606384277,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 3.1558,
+      "step": 134
+    },
+    {
+      "epoch": 0.009046589938181636,
+      "grad_norm": 6.015562057495117,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 2.7852,
+      "step": 135
+    },
+    {
+      "epoch": 0.009113601715501499,
+      "grad_norm": 6.302767753601074,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 2.924,
+      "step": 136
+    },
+    {
+      "epoch": 0.009180613492821363,
+      "grad_norm": 5.9889817237854,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 2.9211,
+      "step": 137
+    },
+    {
+      "epoch": 0.009247625270141228,
+      "grad_norm": 6.719918251037598,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 2.9759,
+      "step": 138
+    },
+    {
+      "epoch": 0.009314637047461091,
+      "grad_norm": 6.2145466804504395,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 2.76,
+      "step": 139
+    },
+    {
+      "epoch": 0.009381648824780955,
+      "grad_norm": 6.185413360595703,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 3.1391,
+      "step": 140
+    },
+    {
+      "epoch": 0.00944866060210082,
+      "grad_norm": 6.555198669433594,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 3.5508,
+      "step": 141
+    },
+    {
+      "epoch": 0.009515672379420683,
+      "grad_norm": 7.662604331970215,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 3.0451,
+      "step": 142
+    },
+    {
+      "epoch": 0.009582684156740547,
+      "grad_norm": 7.461409568786621,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 3.3342,
+      "step": 143
+    },
+    {
+      "epoch": 0.00964969593406041,
+      "grad_norm": 8.082277297973633,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 3.191,
+      "step": 144
+    },
+    {
+      "epoch": 0.009716707711380276,
+      "grad_norm": 8.397353172302246,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 2.8982,
+      "step": 145
+    },
+    {
+      "epoch": 0.00978371948870014,
+      "grad_norm": 8.452592849731445,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 3.6459,
+      "step": 146
+    },
+    {
+      "epoch": 0.009850731266020003,
+      "grad_norm": 9.31845760345459,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 3.3051,
+      "step": 147
+    },
+    {
+      "epoch": 0.009917743043339866,
+      "grad_norm": 10.629938125610352,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 3.6277,
+      "step": 148
+    },
+    {
+      "epoch": 0.009984754820659731,
+      "grad_norm": 11.908143997192383,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 3.9846,
+      "step": 149
+    },
+    {
+      "epoch": 0.010051766597979595,
+      "grad_norm": 16.358522415161133,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 3.1578,
+      "step": 150
+    },
+    {
+      "epoch": 0.010051766597979595,
+      "eval_loss": 0.6861550807952881,
+      "eval_runtime": 1994.0732,
+      "eval_samples_per_second": 12.604,
+      "eval_steps_per_second": 3.151,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.225204408478597e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null