Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f670ac63a6e6cb8380604e7990e8807931075b80df6307ed6d27dee744ca0fa
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:acd384a6953547266a4ca4b35d804ddbf7f833d72e55593b64b184c17ca199fa
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0171647034896bdc2e219e48e3a59144d1d0ae45ce8740b549e873ea3556119b
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:e18afc83d99fdcafc99120ef8f3e72599da65f004cf66bb5517df7e0c98c73f7
 size 71077780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2736acb6a2ef10df364cdc191b1326a76b7de282097399abed6b111c5628d51b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4fac5356df4813573b45df8124d62d84e25159dcd3dd27b9cdf540d0d792b57
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3391810655593872,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.008422352924662053,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 60.065,
       "eval_steps_per_second": 15.017,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1117,7 +1475,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0303319310336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3097492456436157,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.011229803899549404,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 60.065,
       "eval_steps_per_second": 15.017,
       "step": 150
+    },
+    {
+      "epoch": 0.0084785019441598,
+      "grad_norm": 0.5642489790916443,
+      "learning_rate": 7.107005538862646e-05,
+      "loss": 1.4318,
+      "step": 151
+    },
+    {
+      "epoch": 0.008534650963657547,
+      "grad_norm": 0.5044007897377014,
+      "learning_rate": 7.07041155014006e-05,
+      "loss": 1.4648,
+      "step": 152
+    },
+    {
+      "epoch": 0.008590799983155295,
+      "grad_norm": 0.4890078008174896,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.4658,
+      "step": 153
+    },
+    {
+      "epoch": 0.008646949002653042,
+      "grad_norm": 0.46746453642845154,
+      "learning_rate": 6.996822917828477e-05,
+      "loss": 1.5129,
+      "step": 154
+    },
+    {
+      "epoch": 0.008703098022150788,
+      "grad_norm": 0.40368425846099854,
+      "learning_rate": 6.959833049300377e-05,
+      "loss": 1.3295,
+      "step": 155
+    },
+    {
+      "epoch": 0.008759247041648535,
+      "grad_norm": 0.37394431233406067,
+      "learning_rate": 6.922716010014255e-05,
+      "loss": 1.3927,
+      "step": 156
+    },
+    {
+      "epoch": 0.008815396061146282,
+      "grad_norm": 0.3574720323085785,
+      "learning_rate": 6.885474208441603e-05,
+      "loss": 1.3916,
+      "step": 157
+    },
+    {
+      "epoch": 0.00887154508064403,
+      "grad_norm": 0.32283368706703186,
+      "learning_rate": 6.848110061149556e-05,
+      "loss": 1.3552,
+      "step": 158
+    },
+    {
+      "epoch": 0.008927694100141777,
+      "grad_norm": 0.33707913756370544,
+      "learning_rate": 6.810625992644085e-05,
+      "loss": 1.2879,
+      "step": 159
+    },
+    {
+      "epoch": 0.008983843119639524,
+      "grad_norm": 0.3094768822193146,
+      "learning_rate": 6.773024435212678e-05,
+      "loss": 1.4034,
+      "step": 160
+    },
+    {
+      "epoch": 0.00903999213913727,
+      "grad_norm": 0.32651329040527344,
+      "learning_rate": 6.735307828766515e-05,
+      "loss": 1.3895,
+      "step": 161
+    },
+    {
+      "epoch": 0.009096141158635017,
+      "grad_norm": 0.3196355998516083,
+      "learning_rate": 6.697478620682137e-05,
+      "loss": 1.2508,
+      "step": 162
+    },
+    {
+      "epoch": 0.009152290178132764,
+      "grad_norm": 0.3607967793941498,
+      "learning_rate": 6.659539265642643e-05,
+      "loss": 1.4363,
+      "step": 163
+    },
+    {
+      "epoch": 0.009208439197630511,
+      "grad_norm": 0.35106199979782104,
+      "learning_rate": 6.621492225478414e-05,
+      "loss": 1.2713,
+      "step": 164
+    },
+    {
+      "epoch": 0.009264588217128259,
+      "grad_norm": 0.35512736439704895,
+      "learning_rate": 6.583339969007363e-05,
+      "loss": 1.295,
+      "step": 165
+    },
+    {
+      "epoch": 0.009320737236626006,
+      "grad_norm": 0.3737083375453949,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.3323,
+      "step": 166
+    },
+    {
+      "epoch": 0.009376886256123752,
+      "grad_norm": 0.4016343951225281,
+      "learning_rate": 6.506729716392481e-05,
+      "loss": 1.4126,
+      "step": 167
+    },
+    {
+      "epoch": 0.009433035275621499,
+      "grad_norm": 0.3611617386341095,
+      "learning_rate": 6.468276691378155e-05,
+      "loss": 1.3274,
+      "step": 168
+    },
+    {
+      "epoch": 0.009489184295119246,
+      "grad_norm": 0.3725200295448303,
+      "learning_rate": 6.429728391993446e-05,
+      "loss": 1.3742,
+      "step": 169
+    },
+    {
+      "epoch": 0.009545333314616994,
+      "grad_norm": 0.3512539565563202,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 1.2968,
+      "step": 170
+    },
+    {
+      "epoch": 0.00960148233411474,
+      "grad_norm": 0.36317336559295654,
+      "learning_rate": 6.35235598150842e-05,
+      "loss": 1.3214,
+      "step": 171
+    },
+    {
+      "epoch": 0.009657631353612488,
+      "grad_norm": 0.34445124864578247,
+      "learning_rate": 6.313536890992935e-05,
+      "loss": 1.4116,
+      "step": 172
+    },
+    {
+      "epoch": 0.009713780373110235,
+      "grad_norm": 0.3411950170993805,
+      "learning_rate": 6.274632566950967e-05,
+      "loss": 1.3073,
+      "step": 173
+    },
+    {
+      "epoch": 0.009769929392607981,
+      "grad_norm": 0.34826982021331787,
+      "learning_rate": 6.235645533828349e-05,
+      "loss": 1.343,
+      "step": 174
+    },
+    {
+      "epoch": 0.009826078412105728,
+      "grad_norm": 0.3545963764190674,
+      "learning_rate": 6.19657832143779e-05,
+      "loss": 1.242,
+      "step": 175
+    },
+    {
+      "epoch": 0.009882227431603476,
+      "grad_norm": 0.3508628308773041,
+      "learning_rate": 6.157433464794716e-05,
+      "loss": 1.3282,
+      "step": 176
+    },
+    {
+      "epoch": 0.009938376451101223,
+      "grad_norm": 0.3514939248561859,
+      "learning_rate": 6.118213503952779e-05,
+      "loss": 1.3372,
+      "step": 177
+    },
+    {
+      "epoch": 0.00999452547059897,
+      "grad_norm": 0.3604854643344879,
+      "learning_rate": 6.078920983839031e-05,
+      "loss": 1.2204,
+      "step": 178
+    },
+    {
+      "epoch": 0.010050674490096717,
+      "grad_norm": 0.3543670177459717,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.3297,
+      "step": 179
+    },
+    {
+      "epoch": 0.010106823509594463,
+      "grad_norm": 0.3550858497619629,
+      "learning_rate": 6.0001284688802226e-05,
+      "loss": 1.2605,
+      "step": 180
+    },
+    {
+      "epoch": 0.01016297252909221,
+      "grad_norm": 0.39260271191596985,
+      "learning_rate": 5.960633586768543e-05,
+      "loss": 1.3573,
+      "step": 181
+    },
+    {
+      "epoch": 0.010219121548589958,
+      "grad_norm": 0.3887863755226135,
+      "learning_rate": 5.921076370520058e-05,
+      "loss": 1.363,
+      "step": 182
+    },
+    {
+      "epoch": 0.010275270568087705,
+      "grad_norm": 0.37520524859428406,
+      "learning_rate": 5.8814593869458455e-05,
+      "loss": 1.3223,
+      "step": 183
+    },
+    {
+      "epoch": 0.010331419587585452,
+      "grad_norm": 0.3729931712150574,
+      "learning_rate": 5.841785206735192e-05,
+      "loss": 1.2342,
+      "step": 184
+    },
+    {
+      "epoch": 0.0103875686070832,
+      "grad_norm": 0.38081759214401245,
+      "learning_rate": 5.8020564042888015e-05,
+      "loss": 1.234,
+      "step": 185
+    },
+    {
+      "epoch": 0.010443717626580945,
+      "grad_norm": 0.3631656765937805,
+      "learning_rate": 5.762275557551727e-05,
+      "loss": 1.3003,
+      "step": 186
+    },
+    {
+      "epoch": 0.010499866646078692,
+      "grad_norm": 0.4031181037425995,
+      "learning_rate": 5.7224452478461064e-05,
+      "loss": 1.3298,
+      "step": 187
+    },
+    {
+      "epoch": 0.01055601566557644,
+      "grad_norm": 0.4042447805404663,
+      "learning_rate": 5.682568059703659e-05,
+      "loss": 1.2979,
+      "step": 188
+    },
+    {
+      "epoch": 0.010612164685074187,
+      "grad_norm": 0.40623968839645386,
+      "learning_rate": 5.642646580697973e-05,
+      "loss": 1.3856,
+      "step": 189
+    },
+    {
+      "epoch": 0.010668313704571934,
+      "grad_norm": 0.40532568097114563,
+      "learning_rate": 5.602683401276615e-05,
+      "loss": 1.4164,
+      "step": 190
+    },
+    {
+      "epoch": 0.010724462724069682,
+      "grad_norm": 0.39717039465904236,
+      "learning_rate": 5.562681114593028e-05,
+      "loss": 1.3338,
+      "step": 191
+    },
+    {
+      "epoch": 0.010780611743567427,
+      "grad_norm": 0.40519657731056213,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.2581,
+      "step": 192
+    },
+    {
+      "epoch": 0.010836760763065174,
+      "grad_norm": 0.39909666776657104,
+      "learning_rate": 5.482569604572576e-05,
+      "loss": 1.2558,
+      "step": 193
+    },
+    {
+      "epoch": 0.010892909782562922,
+      "grad_norm": 0.4094207286834717,
+      "learning_rate": 5.442465579556793e-05,
+      "loss": 1.2703,
+      "step": 194
+    },
+    {
+      "epoch": 0.010949058802060669,
+      "grad_norm": 0.4021713137626648,
+      "learning_rate": 5.402332843583631e-05,
+      "loss": 1.1132,
+      "step": 195
+    },
+    {
+      "epoch": 0.011005207821558416,
+      "grad_norm": 0.4159744679927826,
+      "learning_rate": 5.3621740008088126e-05,
+      "loss": 1.2728,
+      "step": 196
+    },
+    {
+      "epoch": 0.011061356841056164,
+      "grad_norm": 0.43642398715019226,
+      "learning_rate": 5.321991657082097e-05,
+      "loss": 1.1966,
+      "step": 197
+    },
+    {
+      "epoch": 0.01111750586055391,
+      "grad_norm": 0.4745156764984131,
+      "learning_rate": 5.281788419778187e-05,
+      "loss": 1.1507,
+      "step": 198
+    },
+    {
+      "epoch": 0.011173654880051656,
+      "grad_norm": 0.489679753780365,
+      "learning_rate": 5.2415668976275355e-05,
+      "loss": 1.1221,
+      "step": 199
+    },
+    {
+      "epoch": 0.011229803899549404,
+      "grad_norm": 0.5562720894813538,
+      "learning_rate": 5.201329700547076e-05,
+      "loss": 0.987,
+      "step": 200
+    },
+    {
+      "epoch": 0.011229803899549404,
+      "eval_loss": 1.3097492456436157,
+      "eval_runtime": 498.6415,
+      "eval_samples_per_second": 60.153,
+      "eval_steps_per_second": 15.039,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3737759080448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null