Training in progress, step 200, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6478c44dcfe47c66e4bdb2ba94b92fae5c70ae71b5c5a0d8ea6b7672d5e6e71
 size 1157746040

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc78cc7306a14dbe85ba1348060ccb6041c645792019cadb228ef1202368799f
 size 1157746040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd29317c2b5752c34c30b11c987e6a9a73a267623ac7dd1f34dea83250278bb0
 size 588699796

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0f8823a3a650a8e7e9a5632e95aaa12db1db8c08683d165a23c23e33d89a7e
 size 588699796

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10aa2f7f27f33adc50a21abe7d03eb50cd7ff3458bacfe21c4799b75bb717e18
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cabdeb0aa7489597f09494d900fb00bbef3b27170878be7c3062653a62c69840
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c72bcbbd26c8fcfe452930e80a6a47167cb37dbf0bdd0200ff327d7e1132715e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:de63a87feefc61086a526eaed973ac7415208a5539cbebe45f6cbe894b047302
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc8184544394f1a57802d6333ead772da158364e2fdd23f212103e4adc4129fb
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:eaf3579f977573b843aedc12ca02e4491a147dcbe650cb5b19bfb42c8095879e
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b0c20ad89e1dade716473de79b6a1b09484cafc267937e7b2b3559110ba1465
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c600b41e59d0a74c6f7fa7fbe21eab5fac0115c32453dc38f27559ccdd40bcf0
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:570729bd73d3b7473398d29397a9604c4a007633b21fa95116088a959e2aba23
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cb1c6e3722f34d72c2bbd621575a2444da4aa69eee86e85b24b444906a02ed6
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03c5626167b0c70752e1312fcf7e67d6398f540bf389d7c2280409358563f97e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ffb6e956ded7fdea051a4ca8fd14b3a090d8307985d643572125a9d311d02c6
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac9b7b84707a25e39a97b7cfc050664d7ad683356a7793e16bcfebddae502898
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5435992fa600f0b75f0d606faf5599521aaa0a6826cc0660b148210361c14cb7
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98b5bf0d3c51757e3c2768a4f754c048cee95ca5ec2b8320316be70a556963ec
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b76789a16fd044a0ab6cf98c0ae8fcbe445e6e99c0c8dd332ef96b5178b4b87
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d606eeb1aa97b417de3c30d0a970be83ac979e2c7cc0fa41135c63d459909e5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4af3b1b4fa156d60adeec70df709d1741ac2f3147c676ab2805007313fc707
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.40253087878227234,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.20060180541624875,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 61.735,
       "eval_steps_per_second": 1.93,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.172246609849221e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.3805055320262909,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.2674690738883317,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 61.735,
       "eval_steps_per_second": 1.93,
       "step": 150
+    },
+    {
+      "epoch": 0.2019391507856904,
+      "grad_norm": 0.45184099674224854,
+      "learning_rate": 2.6047368421052634e-05,
+      "loss": 0.3684,
+      "step": 151
+    },
+    {
+      "epoch": 0.20327649615513207,
+      "grad_norm": 0.434439092874527,
+      "learning_rate": 2.5515789473684213e-05,
+      "loss": 0.4031,
+      "step": 152
+    },
+    {
+      "epoch": 0.2046138415245737,
+      "grad_norm": 0.42792612314224243,
+      "learning_rate": 2.4984210526315788e-05,
+      "loss": 0.3766,
+      "step": 153
+    },
+    {
+      "epoch": 0.20595118689401537,
+      "grad_norm": 0.49633392691612244,
+      "learning_rate": 2.445263157894737e-05,
+      "loss": 0.3817,
+      "step": 154
+    },
+    {
+      "epoch": 0.20728853226345703,
+      "grad_norm": 0.5329721570014954,
+      "learning_rate": 2.3921052631578946e-05,
+      "loss": 0.3922,
+      "step": 155
+    },
+    {
+      "epoch": 0.2086258776328987,
+      "grad_norm": 0.6009562015533447,
+      "learning_rate": 2.3389473684210528e-05,
+      "loss": 0.4599,
+      "step": 156
+    },
+    {
+      "epoch": 0.20996322300234035,
+      "grad_norm": 0.5791399478912354,
+      "learning_rate": 2.2857894736842106e-05,
+      "loss": 0.4208,
+      "step": 157
+    },
+    {
+      "epoch": 0.21130056837178202,
+      "grad_norm": 0.4088732898235321,
+      "learning_rate": 2.2326315789473685e-05,
+      "loss": 0.3843,
+      "step": 158
+    },
+    {
+      "epoch": 0.21263791374122368,
+      "grad_norm": 0.45058414340019226,
+      "learning_rate": 2.1794736842105264e-05,
+      "loss": 0.3714,
+      "step": 159
+    },
+    {
+      "epoch": 0.21397525911066534,
+      "grad_norm": 0.4509147107601166,
+      "learning_rate": 2.1263157894736842e-05,
+      "loss": 0.3519,
+      "step": 160
+    },
+    {
+      "epoch": 0.215312604480107,
+      "grad_norm": 0.463635116815567,
+      "learning_rate": 2.073157894736842e-05,
+      "loss": 0.3748,
+      "step": 161
+    },
+    {
+      "epoch": 0.21664994984954863,
+      "grad_norm": 0.47925081849098206,
+      "learning_rate": 2.0200000000000003e-05,
+      "loss": 0.4076,
+      "step": 162
+    },
+    {
+      "epoch": 0.2179872952189903,
+      "grad_norm": 0.5302396416664124,
+      "learning_rate": 1.966842105263158e-05,
+      "loss": 0.4223,
+      "step": 163
+    },
+    {
+      "epoch": 0.21932464058843196,
+      "grad_norm": 0.4227338135242462,
+      "learning_rate": 1.913684210526316e-05,
+      "loss": 0.3941,
+      "step": 164
+    },
+    {
+      "epoch": 0.22066198595787362,
+      "grad_norm": 0.42220085859298706,
+      "learning_rate": 1.8605263157894736e-05,
+      "loss": 0.3546,
+      "step": 165
+    },
+    {
+      "epoch": 0.22199933132731528,
+      "grad_norm": 0.6946835517883301,
+      "learning_rate": 1.8073684210526318e-05,
+      "loss": 0.3751,
+      "step": 166
+    },
+    {
+      "epoch": 0.22333667669675694,
+      "grad_norm": 0.4991867244243622,
+      "learning_rate": 1.7542105263157897e-05,
+      "loss": 0.3822,
+      "step": 167
+    },
+    {
+      "epoch": 0.2246740220661986,
+      "grad_norm": 0.5040214657783508,
+      "learning_rate": 1.7010526315789475e-05,
+      "loss": 0.3952,
+      "step": 168
+    },
+    {
+      "epoch": 0.22601136743564026,
+      "grad_norm": 0.5185226798057556,
+      "learning_rate": 1.6478947368421054e-05,
+      "loss": 0.4125,
+      "step": 169
+    },
+    {
+      "epoch": 0.22734871280508193,
+      "grad_norm": 0.5224834680557251,
+      "learning_rate": 1.5947368421052633e-05,
+      "loss": 0.3923,
+      "step": 170
+    },
+    {
+      "epoch": 0.22868605817452356,
+      "grad_norm": 0.4851369559764862,
+      "learning_rate": 1.541578947368421e-05,
+      "loss": 0.3828,
+      "step": 171
+    },
+    {
+      "epoch": 0.23002340354396522,
+      "grad_norm": 0.454653799533844,
+      "learning_rate": 1.4884210526315788e-05,
+      "loss": 0.3558,
+      "step": 172
+    },
+    {
+      "epoch": 0.23136074891340688,
+      "grad_norm": 0.48836466670036316,
+      "learning_rate": 1.4352631578947369e-05,
+      "loss": 0.3442,
+      "step": 173
+    },
+    {
+      "epoch": 0.23269809428284854,
+      "grad_norm": 0.5194349884986877,
+      "learning_rate": 1.3821052631578949e-05,
+      "loss": 0.387,
+      "step": 174
+    },
+    {
+      "epoch": 0.2340354396522902,
+      "grad_norm": 0.547723650932312,
+      "learning_rate": 1.3289473684210526e-05,
+      "loss": 0.4174,
+      "step": 175
+    },
+    {
+      "epoch": 0.23537278502173187,
+      "grad_norm": 0.5337607860565186,
+      "learning_rate": 1.2757894736842106e-05,
+      "loss": 0.3871,
+      "step": 176
+    },
+    {
+      "epoch": 0.23671013039117353,
+      "grad_norm": 0.40233319997787476,
+      "learning_rate": 1.2226315789473685e-05,
+      "loss": 0.3775,
+      "step": 177
+    },
+    {
+      "epoch": 0.2380474757606152,
+      "grad_norm": 0.43985167145729065,
+      "learning_rate": 1.1694736842105264e-05,
+      "loss": 0.3586,
+      "step": 178
+    },
+    {
+      "epoch": 0.23938482113005682,
+      "grad_norm": 0.45315495133399963,
+      "learning_rate": 1.1163157894736842e-05,
+      "loss": 0.3238,
+      "step": 179
+    },
+    {
+      "epoch": 0.24072216649949849,
+      "grad_norm": 0.5802536606788635,
+      "learning_rate": 1.0631578947368421e-05,
+      "loss": 0.3837,
+      "step": 180
+    },
+    {
+      "epoch": 0.24205951186894015,
+      "grad_norm": 0.5740211009979248,
+      "learning_rate": 1.0100000000000002e-05,
+      "loss": 0.4178,
+      "step": 181
+    },
+    {
+      "epoch": 0.2433968572383818,
+      "grad_norm": 0.49120983481407166,
+      "learning_rate": 9.56842105263158e-06,
+      "loss": 0.397,
+      "step": 182
+    },
+    {
+      "epoch": 0.24473420260782347,
+      "grad_norm": 0.44074326753616333,
+      "learning_rate": 9.036842105263159e-06,
+      "loss": 0.3875,
+      "step": 183
+    },
+    {
+      "epoch": 0.24607154797726513,
+      "grad_norm": 0.4497341513633728,
+      "learning_rate": 8.505263157894738e-06,
+      "loss": 0.3686,
+      "step": 184
+    },
+    {
+      "epoch": 0.2474088933467068,
+      "grad_norm": 0.4797495901584625,
+      "learning_rate": 7.973684210526316e-06,
+      "loss": 0.3343,
+      "step": 185
+    },
+    {
+      "epoch": 0.24874623871614845,
+      "grad_norm": 0.5205207467079163,
+      "learning_rate": 7.442105263157894e-06,
+      "loss": 0.3599,
+      "step": 186
+    },
+    {
+      "epoch": 0.2500835840855901,
+      "grad_norm": 0.5848222374916077,
+      "learning_rate": 6.9105263157894745e-06,
+      "loss": 0.4187,
+      "step": 187
+    },
+    {
+      "epoch": 0.25142092945503175,
+      "grad_norm": 0.5667325258255005,
+      "learning_rate": 6.378947368421053e-06,
+      "loss": 0.4287,
+      "step": 188
+    },
+    {
+      "epoch": 0.25275827482447344,
+      "grad_norm": 0.471034973859787,
+      "learning_rate": 5.847368421052632e-06,
+      "loss": 0.3827,
+      "step": 189
+    },
+    {
+      "epoch": 0.2540956201939151,
+      "grad_norm": 0.49904295802116394,
+      "learning_rate": 5.315789473684211e-06,
+      "loss": 0.3574,
+      "step": 190
+    },
+    {
+      "epoch": 0.25543296556335676,
+      "grad_norm": 0.43988069891929626,
+      "learning_rate": 4.78421052631579e-06,
+      "loss": 0.3303,
+      "step": 191
+    },
+    {
+      "epoch": 0.2567703109327984,
+      "grad_norm": 0.4988187849521637,
+      "learning_rate": 4.252631578947369e-06,
+      "loss": 0.3557,
+      "step": 192
+    },
+    {
+      "epoch": 0.25810765630224003,
+      "grad_norm": 0.5299032330513,
+      "learning_rate": 3.721052631578947e-06,
+      "loss": 0.4133,
+      "step": 193
+    },
+    {
+      "epoch": 0.2594450016716817,
+      "grad_norm": 0.6477139592170715,
+      "learning_rate": 3.1894736842105266e-06,
+      "loss": 0.4358,
+      "step": 194
+    },
+    {
+      "epoch": 0.26078234704112335,
+      "grad_norm": 0.43280407786369324,
+      "learning_rate": 2.6578947368421053e-06,
+      "loss": 0.4003,
+      "step": 195
+    },
+    {
+      "epoch": 0.26211969241056504,
+      "grad_norm": 0.4348888397216797,
+      "learning_rate": 2.1263157894736844e-06,
+      "loss": 0.3716,
+      "step": 196
+    },
+    {
+      "epoch": 0.2634570377800067,
+      "grad_norm": 0.43621212244033813,
+      "learning_rate": 1.5947368421052633e-06,
+      "loss": 0.3469,
+      "step": 197
+    },
+    {
+      "epoch": 0.26479438314944836,
+      "grad_norm": 0.4648005962371826,
+      "learning_rate": 1.0631578947368422e-06,
+      "loss": 0.3472,
+      "step": 198
+    },
+    {
+      "epoch": 0.26613172851889,
+      "grad_norm": 0.49395835399627686,
+      "learning_rate": 5.315789473684211e-07,
+      "loss": 0.3601,
+      "step": 199
+    },
+    {
+      "epoch": 0.2674690738883317,
+      "grad_norm": 0.6281976103782654,
+      "learning_rate": 0.0,
+      "loss": 0.4593,
+      "step": 200
+    },
+    {
+      "epoch": 0.2674690738883317,
+      "eval_loss": 0.3805055320262909,
+      "eval_runtime": 164.2832,
+      "eval_samples_per_second": 61.327,
+      "eval_steps_per_second": 1.917,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.228561818794066e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null