Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acd384a6953547266a4ca4b35d804ddbf7f833d72e55593b64b184c17ca199fa
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d0132c9a94bb5a029d8962187619a8a9e1665a1d062842b7792739241a3d5e4
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e18afc83d99fdcafc99120ef8f3e72599da65f004cf66bb5517df7e0c98c73f7
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:98185beb6d8450af78168c1d1f5f5aa684a9501073d9756c0739b2cd8ec126a4
 size 71077780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4fac5356df4813573b45df8124d62d84e25159dcd3dd27b9cdf540d0d792b57
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:975dafaada20f650872c80fa03024307b0bb45b77cfb8bb35988f52b21675d58
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac116b8169c53ab649a7f15f2f32735f2c71ec2f803f70de8c655a513ee9cfc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d5e1448282b30a66cf7be83aef18a251fdb6205c0184b42e99ae724602144bf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3097492456436157,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.011229803899549404,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 60.153,
       "eval_steps_per_second": 15.039,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3737759080448e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.296608567237854,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.014037254874436755,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 60.153,
       "eval_steps_per_second": 15.039,
       "step": 200
+    },
+    {
+      "epoch": 0.011285952919047151,
+      "grad_norm": 0.46652019023895264,
+      "learning_rate": 5.161079439470866e-05,
+      "loss": 1.4637,
+      "step": 201
+    },
+    {
+      "epoch": 0.011342101938544898,
+      "grad_norm": 0.4668552279472351,
+      "learning_rate": 5.1208187261806615e-05,
+      "loss": 1.387,
+      "step": 202
+    },
+    {
+      "epoch": 0.011398250958042646,
+      "grad_norm": 0.41647565364837646,
+      "learning_rate": 5.080550173136457e-05,
+      "loss": 1.3549,
+      "step": 203
+    },
+    {
+      "epoch": 0.011454399977540393,
+      "grad_norm": 0.42582443356513977,
+      "learning_rate": 5.0402763933069496e-05,
+      "loss": 1.4554,
+      "step": 204
+    },
+    {
+      "epoch": 0.011510548997038138,
+      "grad_norm": 0.4078443944454193,
+      "learning_rate": 5e-05,
+      "loss": 1.3543,
+      "step": 205
+    },
+    {
+      "epoch": 0.011566698016535886,
+      "grad_norm": 0.40546315908432007,
+      "learning_rate": 4.9597236066930516e-05,
+      "loss": 1.3727,
+      "step": 206
+    },
+    {
+      "epoch": 0.011622847036033633,
+      "grad_norm": 0.3524981141090393,
+      "learning_rate": 4.919449826863544e-05,
+      "loss": 1.344,
+      "step": 207
+    },
+    {
+      "epoch": 0.01167899605553138,
+      "grad_norm": 0.35291409492492676,
+      "learning_rate": 4.87918127381934e-05,
+      "loss": 1.4609,
+      "step": 208
+    },
+    {
+      "epoch": 0.011735145075029128,
+      "grad_norm": 0.3335376977920532,
+      "learning_rate": 4.8389205605291365e-05,
+      "loss": 1.2127,
+      "step": 209
+    },
+    {
+      "epoch": 0.011791294094526875,
+      "grad_norm": 0.33301424980163574,
+      "learning_rate": 4.798670299452926e-05,
+      "loss": 1.2796,
+      "step": 210
+    },
+    {
+      "epoch": 0.01184744311402462,
+      "grad_norm": 0.3301815390586853,
+      "learning_rate": 4.758433102372466e-05,
+      "loss": 1.2696,
+      "step": 211
+    },
+    {
+      "epoch": 0.011903592133522368,
+      "grad_norm": 0.3339588940143585,
+      "learning_rate": 4.7182115802218126e-05,
+      "loss": 1.2953,
+      "step": 212
+    },
+    {
+      "epoch": 0.011959741153020115,
+      "grad_norm": 0.3536163568496704,
+      "learning_rate": 4.678008342917903e-05,
+      "loss": 1.3142,
+      "step": 213
+    },
+    {
+      "epoch": 0.012015890172517862,
+      "grad_norm": 0.35881930589675903,
+      "learning_rate": 4.6378259991911886e-05,
+      "loss": 1.2631,
+      "step": 214
+    },
+    {
+      "epoch": 0.01207203919201561,
+      "grad_norm": 0.34832143783569336,
+      "learning_rate": 4.597667156416371e-05,
+      "loss": 1.3148,
+      "step": 215
+    },
+    {
+      "epoch": 0.012128188211513357,
+      "grad_norm": 0.3691975772380829,
+      "learning_rate": 4.5575344204432084e-05,
+      "loss": 1.3122,
+      "step": 216
+    },
+    {
+      "epoch": 0.012184337231011104,
+      "grad_norm": 0.3549201488494873,
+      "learning_rate": 4.5174303954274244e-05,
+      "loss": 1.3102,
+      "step": 217
+    },
+    {
+      "epoch": 0.01224048625050885,
+      "grad_norm": 0.36213812232017517,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.3093,
+      "step": 218
+    },
+    {
+      "epoch": 0.012296635270006597,
+      "grad_norm": 0.3908132016658783,
+      "learning_rate": 4.437318885406973e-05,
+      "loss": 1.3132,
+      "step": 219
+    },
+    {
+      "epoch": 0.012352784289504344,
+      "grad_norm": 0.3759017586708069,
+      "learning_rate": 4.397316598723385e-05,
+      "loss": 1.2697,
+      "step": 220
+    },
+    {
+      "epoch": 0.012408933309002092,
+      "grad_norm": 0.35085058212280273,
+      "learning_rate": 4.3573534193020274e-05,
+      "loss": 1.3245,
+      "step": 221
+    },
+    {
+      "epoch": 0.012465082328499839,
+      "grad_norm": 0.3695438802242279,
+      "learning_rate": 4.317431940296343e-05,
+      "loss": 1.2508,
+      "step": 222
+    },
+    {
+      "epoch": 0.012521231347997586,
+      "grad_norm": 0.34485650062561035,
+      "learning_rate": 4.277554752153895e-05,
+      "loss": 1.2654,
+      "step": 223
+    },
+    {
+      "epoch": 0.012577380367495332,
+      "grad_norm": 0.3876595199108124,
+      "learning_rate": 4.237724442448273e-05,
+      "loss": 1.2942,
+      "step": 224
+    },
+    {
+      "epoch": 0.01263352938699308,
+      "grad_norm": 0.355491042137146,
+      "learning_rate": 4.197943595711198e-05,
+      "loss": 1.2436,
+      "step": 225
+    },
+    {
+      "epoch": 0.012689678406490826,
+      "grad_norm": 0.3636676073074341,
+      "learning_rate": 4.1582147932648074e-05,
+      "loss": 1.2598,
+      "step": 226
+    },
+    {
+      "epoch": 0.012745827425988574,
+      "grad_norm": 0.36330193281173706,
+      "learning_rate": 4.118540613054156e-05,
+      "loss": 1.3101,
+      "step": 227
+    },
+    {
+      "epoch": 0.012801976445486321,
+      "grad_norm": 0.3567420542240143,
+      "learning_rate": 4.078923629479943e-05,
+      "loss": 1.2313,
+      "step": 228
+    },
+    {
+      "epoch": 0.012858125464984068,
+      "grad_norm": 0.3769914209842682,
+      "learning_rate": 4.039366413231458e-05,
+      "loss": 1.3703,
+      "step": 229
+    },
+    {
+      "epoch": 0.012914274484481814,
+      "grad_norm": 0.36686626076698303,
+      "learning_rate": 3.9998715311197785e-05,
+      "loss": 1.2676,
+      "step": 230
+    },
+    {
+      "epoch": 0.012970423503979561,
+      "grad_norm": 0.36683401465415955,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.3576,
+      "step": 231
+    },
+    {
+      "epoch": 0.013026572523477309,
+      "grad_norm": 0.38010573387145996,
+      "learning_rate": 3.92107901616097e-05,
+      "loss": 1.318,
+      "step": 232
+    },
+    {
+      "epoch": 0.013082721542975056,
+      "grad_norm": 0.387713760137558,
+      "learning_rate": 3.8817864960472236e-05,
+      "loss": 1.2782,
+      "step": 233
+    },
+    {
+      "epoch": 0.013138870562472803,
+      "grad_norm": 0.38116419315338135,
+      "learning_rate": 3.842566535205286e-05,
+      "loss": 1.2469,
+      "step": 234
+    },
+    {
+      "epoch": 0.01319501958197055,
+      "grad_norm": 0.4058433175086975,
+      "learning_rate": 3.803421678562213e-05,
+      "loss": 1.1416,
+      "step": 235
+    },
+    {
+      "epoch": 0.013251168601468298,
+      "grad_norm": 0.3921027183532715,
+      "learning_rate": 3.764354466171652e-05,
+      "loss": 1.2828,
+      "step": 236
+    },
+    {
+      "epoch": 0.013307317620966043,
+      "grad_norm": 0.40361857414245605,
+      "learning_rate": 3.725367433049033e-05,
+      "loss": 1.3705,
+      "step": 237
+    },
+    {
+      "epoch": 0.01336346664046379,
+      "grad_norm": 0.41897809505462646,
+      "learning_rate": 3.6864631090070655e-05,
+      "loss": 1.3478,
+      "step": 238
+    },
+    {
+      "epoch": 0.013419615659961538,
+      "grad_norm": 0.3961997628211975,
+      "learning_rate": 3.6476440184915815e-05,
+      "loss": 1.1923,
+      "step": 239
+    },
+    {
+      "epoch": 0.013475764679459285,
+      "grad_norm": 0.3889695107936859,
+      "learning_rate": 3.608912680417737e-05,
+      "loss": 1.2304,
+      "step": 240
+    },
+    {
+      "epoch": 0.013531913698957032,
+      "grad_norm": 0.42765000462532043,
+      "learning_rate": 3.570271608006555e-05,
+      "loss": 1.3064,
+      "step": 241
+    },
+    {
+      "epoch": 0.01358806271845478,
+      "grad_norm": 0.4513327479362488,
+      "learning_rate": 3.531723308621847e-05,
+      "loss": 1.3254,
+      "step": 242
+    },
+    {
+      "epoch": 0.013644211737952525,
+      "grad_norm": 0.43143191933631897,
+      "learning_rate": 3.493270283607522e-05,
+      "loss": 1.2714,
+      "step": 243
+    },
+    {
+      "epoch": 0.013700360757450273,
+      "grad_norm": 0.4802146255970001,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.2424,
+      "step": 244
+    },
+    {
+      "epoch": 0.01375650977694802,
+      "grad_norm": 0.4541313052177429,
+      "learning_rate": 3.4166600309926387e-05,
+      "loss": 1.1924,
+      "step": 245
+    },
+    {
+      "epoch": 0.013812658796445767,
+      "grad_norm": 0.44022858142852783,
+      "learning_rate": 3.3785077745215873e-05,
+      "loss": 1.1144,
+      "step": 246
+    },
+    {
+      "epoch": 0.013868807815943514,
+      "grad_norm": 0.46132948994636536,
+      "learning_rate": 3.340460734357359e-05,
+      "loss": 1.0814,
+      "step": 247
+    },
+    {
+      "epoch": 0.013924956835441262,
+      "grad_norm": 0.5146449208259583,
+      "learning_rate": 3.3025213793178646e-05,
+      "loss": 1.2631,
+      "step": 248
+    },
+    {
+      "epoch": 0.013981105854939007,
+      "grad_norm": 0.5137025117874146,
+      "learning_rate": 3.264692171233485e-05,
+      "loss": 1.1387,
+      "step": 249
+    },
+    {
+      "epoch": 0.014037254874436755,
+      "grad_norm": 0.6411381959915161,
+      "learning_rate": 3.226975564787322e-05,
+      "loss": 1.0166,
+      "step": 250
+    },
+    {
+      "epoch": 0.014037254874436755,
+      "eval_loss": 1.296608567237854,
+      "eval_runtime": 499.0876,
+      "eval_samples_per_second": 60.1,
+      "eval_steps_per_second": 15.025,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.717219885056e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null