Training in progress, step 200, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:065c4847c77d48636af82ac04e24d6669639aee858745bd5e9709a6f28113bc0
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c610a1f9b16f4c37f6dbff76179ed1145faf33917504b2d462c497f344df41b
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d86916deca263168ea087912bce0d3e3254a609adc3053b459ed3844d5abf9d
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:8fecfe65755bba03bce9c134953b02465449af49f439130ea6c0398ae82f511f
 size 71077780

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66bcfc038b39be98b06b1d3f44d3d884cc84ca6c3d7cdd4458fe4bd35af28fdf
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:9358f588cd0d536461c875674e6d87d04320ccb2beba850091fefc3df5927c9f
 size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1eff428c29c8a413b510ea0c99cc90fced5752aabc4d85d6c21735fea4c002
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cfe0d8512b4a475595204761bea0cdb29e2552d0d0faee220da5d0a5333b17e8
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeddbe5600d823cf37768eae1482c38a2ea7145d34a392b7c9a4385e48a817b8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e781be31e00db2eaf2f9feef5646b98c518870399d17a9bce5bd686049cc3e1
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f235dcaba4f8b2bae2ffa6efc98d40fca6aaea7f218804101a55c6e785fc7a5d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:19a58fd5b0c0cc7e68bbe35c670cb6166b38a6f29e9322d8ff7b885ca5d83fa6
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c900daa360d9b64f5784209a579da36a570994049a6bdb0cac6ac3548fa1367b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f125a97f40e84e4b1af9ade2363d8750531f7ee66919ca23c02172cad7020d15
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d7991e561616014f8a5bb817eae62da5cc992dfd27913e729bf62ba85d14cca
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbfb29b1608537788b6f14b27d3bb777ab710933c860df9fb28143b5edd65011
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06cd337abaaf11b5ea1bcbe97d7af90e43994a88d2d85282a095ce43d36ef599
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f4f0d8751d9a6305feaccfa38779a63aade9826fdc2a2b4533f223d74d50a4
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1592be970ced3852c794800bbf767994ec0a41634e32d31c9bdf50f0461a37a1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:602108815e97b78316b415a2c9a06dc4c490320af6b31005801f62f02b54351f
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d606eeb1aa97b417de3c30d0a970be83ac979e2c7cc0fa41135c63d459909e5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4af3b1b4fa156d60adeec70df709d1741ac2f3147c676ab2805007313fc707
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7152652740478516,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.44543429844098,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 317.508,
       "eval_steps_per_second": 9.937,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.164802509242368e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.7055221796035767,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.5939123979213066,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 317.508,
       "eval_steps_per_second": 9.937,
       "step": 150
+    },
+    {
+      "epoch": 0.4484038604305865,
+      "grad_norm": 0.4152006506919861,
+      "learning_rate": 2.6047368421052634e-05,
+      "loss": 2.0113,
+      "step": 151
+    },
+    {
+      "epoch": 0.451373422420193,
+      "grad_norm": 0.3387254476547241,
+      "learning_rate": 2.5515789473684213e-05,
+      "loss": 1.6984,
+      "step": 152
+    },
+    {
+      "epoch": 0.45434298440979953,
+      "grad_norm": 0.30248063802719116,
+      "learning_rate": 2.4984210526315788e-05,
+      "loss": 1.5683,
+      "step": 153
+    },
+    {
+      "epoch": 0.4573125463994061,
+      "grad_norm": 0.29673343896865845,
+      "learning_rate": 2.445263157894737e-05,
+      "loss": 1.7462,
+      "step": 154
+    },
+    {
+      "epoch": 0.4602821083890126,
+      "grad_norm": 0.28891804814338684,
+      "learning_rate": 2.3921052631578946e-05,
+      "loss": 1.6142,
+      "step": 155
+    },
+    {
+      "epoch": 0.46325167037861914,
+      "grad_norm": 0.28841954469680786,
+      "learning_rate": 2.3389473684210528e-05,
+      "loss": 1.6644,
+      "step": 156
+    },
+    {
+      "epoch": 0.4662212323682257,
+      "grad_norm": 0.4447494149208069,
+      "learning_rate": 2.2857894736842106e-05,
+      "loss": 1.9929,
+      "step": 157
+    },
+    {
+      "epoch": 0.46919079435783223,
+      "grad_norm": 0.31644517183303833,
+      "learning_rate": 2.2326315789473685e-05,
+      "loss": 1.7086,
+      "step": 158
+    },
+    {
+      "epoch": 0.47216035634743875,
+      "grad_norm": 0.2931475341320038,
+      "learning_rate": 2.1794736842105264e-05,
+      "loss": 1.6068,
+      "step": 159
+    },
+    {
+      "epoch": 0.47512991833704527,
+      "grad_norm": 0.2582798898220062,
+      "learning_rate": 2.1263157894736842e-05,
+      "loss": 1.67,
+      "step": 160
+    },
+    {
+      "epoch": 0.47809948032665184,
+      "grad_norm": 0.28844377398490906,
+      "learning_rate": 2.073157894736842e-05,
+      "loss": 1.6426,
+      "step": 161
+    },
+    {
+      "epoch": 0.48106904231625836,
+      "grad_norm": 0.3052982687950134,
+      "learning_rate": 2.0200000000000003e-05,
+      "loss": 1.6897,
+      "step": 162
+    },
+    {
+      "epoch": 0.4840386043058649,
+      "grad_norm": 0.3651982843875885,
+      "learning_rate": 1.966842105263158e-05,
+      "loss": 1.9925,
+      "step": 163
+    },
+    {
+      "epoch": 0.48700816629547145,
+      "grad_norm": 0.30624058842658997,
+      "learning_rate": 1.913684210526316e-05,
+      "loss": 1.666,
+      "step": 164
+    },
+    {
+      "epoch": 0.48997772828507796,
+      "grad_norm": 0.29280751943588257,
+      "learning_rate": 1.8605263157894736e-05,
+      "loss": 1.6695,
+      "step": 165
+    },
+    {
+      "epoch": 0.4929472902746845,
+      "grad_norm": 0.292208194732666,
+      "learning_rate": 1.8073684210526318e-05,
+      "loss": 1.6825,
+      "step": 166
+    },
+    {
+      "epoch": 0.495916852264291,
+      "grad_norm": 0.31185033917427063,
+      "learning_rate": 1.7542105263157897e-05,
+      "loss": 1.5681,
+      "step": 167
+    },
+    {
+      "epoch": 0.49888641425389757,
+      "grad_norm": 0.29408639669418335,
+      "learning_rate": 1.7010526315789475e-05,
+      "loss": 1.5349,
+      "step": 168
+    },
+    {
+      "epoch": 0.5018559762435041,
+      "grad_norm": 0.32190439105033875,
+      "learning_rate": 1.6478947368421054e-05,
+      "loss": 1.8226,
+      "step": 169
+    },
+    {
+      "epoch": 0.5048255382331106,
+      "grad_norm": 0.36318525671958923,
+      "learning_rate": 1.5947368421052633e-05,
+      "loss": 1.8924,
+      "step": 170
+    },
+    {
+      "epoch": 0.5077951002227171,
+      "grad_norm": 0.29154708981513977,
+      "learning_rate": 1.541578947368421e-05,
+      "loss": 1.6153,
+      "step": 171
+    },
+    {
+      "epoch": 0.5107646622123236,
+      "grad_norm": 0.27548426389694214,
+      "learning_rate": 1.4884210526315788e-05,
+      "loss": 1.5938,
+      "step": 172
+    },
+    {
+      "epoch": 0.5137342242019303,
+      "grad_norm": 0.2769072949886322,
+      "learning_rate": 1.4352631578947369e-05,
+      "loss": 1.6193,
+      "step": 173
+    },
+    {
+      "epoch": 0.5167037861915368,
+      "grad_norm": 0.2871799170970917,
+      "learning_rate": 1.3821052631578949e-05,
+      "loss": 1.6787,
+      "step": 174
+    },
+    {
+      "epoch": 0.5196733481811433,
+      "grad_norm": 0.30793648958206177,
+      "learning_rate": 1.3289473684210526e-05,
+      "loss": 1.6432,
+      "step": 175
+    },
+    {
+      "epoch": 0.5226429101707498,
+      "grad_norm": 0.5110085606575012,
+      "learning_rate": 1.2757894736842106e-05,
+      "loss": 2.099,
+      "step": 176
+    },
+    {
+      "epoch": 0.5256124721603563,
+      "grad_norm": 0.2842084467411041,
+      "learning_rate": 1.2226315789473685e-05,
+      "loss": 1.7105,
+      "step": 177
+    },
+    {
+      "epoch": 0.5285820341499629,
+      "grad_norm": 0.2987501323223114,
+      "learning_rate": 1.1694736842105264e-05,
+      "loss": 1.7039,
+      "step": 178
+    },
+    {
+      "epoch": 0.5315515961395694,
+      "grad_norm": 0.28354501724243164,
+      "learning_rate": 1.1163157894736842e-05,
+      "loss": 1.6531,
+      "step": 179
+    },
+    {
+      "epoch": 0.534521158129176,
+      "grad_norm": 0.3013055920600891,
+      "learning_rate": 1.0631578947368421e-05,
+      "loss": 1.6493,
+      "step": 180
+    },
+    {
+      "epoch": 0.5374907201187825,
+      "grad_norm": 0.2916989326477051,
+      "learning_rate": 1.0100000000000002e-05,
+      "loss": 1.6593,
+      "step": 181
+    },
+    {
+      "epoch": 0.540460282108389,
+      "grad_norm": 0.4243452250957489,
+      "learning_rate": 9.56842105263158e-06,
+      "loss": 2.0778,
+      "step": 182
+    },
+    {
+      "epoch": 0.5434298440979956,
+      "grad_norm": 0.2554474174976349,
+      "learning_rate": 9.036842105263159e-06,
+      "loss": 1.5795,
+      "step": 183
+    },
+    {
+      "epoch": 0.5463994060876021,
+      "grad_norm": 0.2881534695625305,
+      "learning_rate": 8.505263157894738e-06,
+      "loss": 1.6869,
+      "step": 184
+    },
+    {
+      "epoch": 0.5493689680772086,
+      "grad_norm": 0.29229146242141724,
+      "learning_rate": 7.973684210526316e-06,
+      "loss": 1.6465,
+      "step": 185
+    },
+    {
+      "epoch": 0.5523385300668151,
+      "grad_norm": 0.29124927520751953,
+      "learning_rate": 7.442105263157894e-06,
+      "loss": 1.5983,
+      "step": 186
+    },
+    {
+      "epoch": 0.5553080920564217,
+      "grad_norm": 0.2808222770690918,
+      "learning_rate": 6.9105263157894745e-06,
+      "loss": 1.639,
+      "step": 187
+    },
+    {
+      "epoch": 0.5582776540460282,
+      "grad_norm": 0.4217700958251953,
+      "learning_rate": 6.378947368421053e-06,
+      "loss": 1.8855,
+      "step": 188
+    },
+    {
+      "epoch": 0.5612472160356348,
+      "grad_norm": 0.3124176561832428,
+      "learning_rate": 5.847368421052632e-06,
+      "loss": 1.8156,
+      "step": 189
+    },
+    {
+      "epoch": 0.5642167780252413,
+      "grad_norm": 0.3067838251590729,
+      "learning_rate": 5.315789473684211e-06,
+      "loss": 1.6828,
+      "step": 190
+    },
+    {
+      "epoch": 0.5671863400148478,
+      "grad_norm": 0.271267831325531,
+      "learning_rate": 4.78421052631579e-06,
+      "loss": 1.6547,
+      "step": 191
+    },
+    {
+      "epoch": 0.5701559020044543,
+      "grad_norm": 0.276227205991745,
+      "learning_rate": 4.252631578947369e-06,
+      "loss": 1.5717,
+      "step": 192
+    },
+    {
+      "epoch": 0.5731254639940608,
+      "grad_norm": 0.2917224168777466,
+      "learning_rate": 3.721052631578947e-06,
+      "loss": 1.592,
+      "step": 193
+    },
+    {
+      "epoch": 0.5760950259836675,
+      "grad_norm": 0.3076692819595337,
+      "learning_rate": 3.1894736842105266e-06,
+      "loss": 1.7594,
+      "step": 194
+    },
+    {
+      "epoch": 0.579064587973274,
+      "grad_norm": 0.46457308530807495,
+      "learning_rate": 2.6578947368421053e-06,
+      "loss": 1.9962,
+      "step": 195
+    },
+    {
+      "epoch": 0.5820341499628805,
+      "grad_norm": 0.29024991393089294,
+      "learning_rate": 2.1263157894736844e-06,
+      "loss": 1.677,
+      "step": 196
+    },
+    {
+      "epoch": 0.585003711952487,
+      "grad_norm": 0.2817266583442688,
+      "learning_rate": 1.5947368421052633e-06,
+      "loss": 1.7326,
+      "step": 197
+    },
+    {
+      "epoch": 0.5879732739420935,
+      "grad_norm": 0.29906028509140015,
+      "learning_rate": 1.0631578947368422e-06,
+      "loss": 1.6654,
+      "step": 198
+    },
+    {
+      "epoch": 0.5909428359317,
+      "grad_norm": 0.30923929810523987,
+      "learning_rate": 5.315789473684211e-07,
+      "loss": 1.5678,
+      "step": 199
+    },
+    {
+      "epoch": 0.5939123979213066,
+      "grad_norm": 0.27361899614334106,
+      "learning_rate": 0.0,
+      "loss": 1.6384,
+      "step": 200
+    },
+    {
+      "epoch": 0.5939123979213066,
+      "eval_loss": 1.7055221796035767,
+      "eval_runtime": 14.6396,
+      "eval_samples_per_second": 309.913,
+      "eval_steps_per_second": 9.7,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2233474433875968e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null