Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7955cd385df47f00bb23a4aafb46576dc7c405f3c515294e6f57ba4976a6b0e
 size 138995824

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f670ac63a6e6cb8380604e7990e8807931075b80df6307ed6d27dee744ca0fa
 size 138995824

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ced0fed4d3acc4ce51d89ee5663d1d48a6c63e656ee631e655a88e507618d62f
 size 71077780

 version https://git-lfs.github.com/spec/v1
+oid sha256:0171647034896bdc2e219e48e3a59144d1d0ae45ce8740b549e873ea3556119b
 size 71077780

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:578c9034391114abb274096907986a3fe624faa6a3bf1f52fd7205d69f9ea173
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:2736acb6a2ef10df364cdc191b1326a76b7de282097399abed6b111c5628d51b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99ca67f9a35cd1c50df3d93bedf5a6642db2c7847c021a0a8d3f44c1bf4993d3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f4002ee03f4202a6a410bde3375cd186d152ce129e8a177eb112bee1f18b1e2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3750338554382324,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.005614901949774702,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 60.149,
       "eval_steps_per_second": 15.038,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6868879540224000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3391810655593872,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.008422352924662053,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 60.149,
       "eval_steps_per_second": 15.038,
       "step": 100
+    },
+    {
+      "epoch": 0.005671050969272449,
+      "grad_norm": 0.5887877941131592,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.4701,
+      "step": 101
+    },
+    {
+      "epoch": 0.0057271999887701965,
+      "grad_norm": 0.533300518989563,
+      "learning_rate": 8.688653405904652e-05,
+      "loss": 1.4185,
+      "step": 102
+    },
+    {
+      "epoch": 0.005783349008267943,
+      "grad_norm": 0.47831276059150696,
+      "learning_rate": 8.661343332988869e-05,
+      "loss": 1.4503,
+      "step": 103
+    },
+    {
+      "epoch": 0.00583949802776569,
+      "grad_norm": 0.44194933772087097,
+      "learning_rate": 8.633795680751116e-05,
+      "loss": 1.4504,
+      "step": 104
+    },
+    {
+      "epoch": 0.0058956470472634375,
+      "grad_norm": 0.37259674072265625,
+      "learning_rate": 8.606012236719073e-05,
+      "loss": 1.3562,
+      "step": 105
+    },
+    {
+      "epoch": 0.005951796066761184,
+      "grad_norm": 0.3651125431060791,
+      "learning_rate": 8.577994803720606e-05,
+      "loss": 1.363,
+      "step": 106
+    },
+    {
+      "epoch": 0.006007945086258931,
+      "grad_norm": 0.3322165608406067,
+      "learning_rate": 8.549745199766792e-05,
+      "loss": 1.3722,
+      "step": 107
+    },
+    {
+      "epoch": 0.0060640941057566785,
+      "grad_norm": 0.31796780228614807,
+      "learning_rate": 8.521265257933948e-05,
+      "loss": 1.3725,
+      "step": 108
+    },
+    {
+      "epoch": 0.006120243125254425,
+      "grad_norm": 0.3114439845085144,
+      "learning_rate": 8.492556826244687e-05,
+      "loss": 1.3041,
+      "step": 109
+    },
+    {
+      "epoch": 0.006176392144752172,
+      "grad_norm": 0.33855172991752625,
+      "learning_rate": 8.463621767547998e-05,
+      "loss": 1.3537,
+      "step": 110
+    },
+    {
+      "epoch": 0.0062325411642499195,
+      "grad_norm": 0.34555360674858093,
+      "learning_rate": 8.434461959398376e-05,
+      "loss": 1.4027,
+      "step": 111
+    },
+    {
+      "epoch": 0.006288690183747666,
+      "grad_norm": 0.3324665129184723,
+      "learning_rate": 8.405079293933986e-05,
+      "loss": 1.4327,
+      "step": 112
+    },
+    {
+      "epoch": 0.006344839203245413,
+      "grad_norm": 0.3820353150367737,
+      "learning_rate": 8.375475677753881e-05,
+      "loss": 1.4021,
+      "step": 113
+    },
+    {
+      "epoch": 0.0064009882227431605,
+      "grad_norm": 0.34804096817970276,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.3878,
+      "step": 114
+    },
+    {
+      "epoch": 0.006457137242240907,
+      "grad_norm": 0.36230865120887756,
+      "learning_rate": 8.315613291203976e-05,
+      "loss": 1.4082,
+      "step": 115
+    },
+    {
+      "epoch": 0.006513286261738654,
+      "grad_norm": 0.3718462884426117,
+      "learning_rate": 8.285358405218655e-05,
+      "loss": 1.3452,
+      "step": 116
+    },
+    {
+      "epoch": 0.0065694352812364016,
+      "grad_norm": 0.33835625648498535,
+      "learning_rate": 8.25489033703452e-05,
+      "loss": 1.3261,
+      "step": 117
+    },
+    {
+      "epoch": 0.006625584300734149,
+      "grad_norm": 0.32900914549827576,
+      "learning_rate": 8.224211063680853e-05,
+      "loss": 1.2985,
+      "step": 118
+    },
+    {
+      "epoch": 0.006681733320231895,
+      "grad_norm": 0.33768901228904724,
+      "learning_rate": 8.19332257589174e-05,
+      "loss": 1.3194,
+      "step": 119
+    },
+    {
+      "epoch": 0.006737882339729643,
+      "grad_norm": 0.3272550106048584,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 1.2992,
+      "step": 120
+    },
+    {
+      "epoch": 0.00679403135922739,
+      "grad_norm": 0.3214387893676758,
+      "learning_rate": 8.130925987691569e-05,
+      "loss": 1.2775,
+      "step": 121
+    },
+    {
+      "epoch": 0.006850180378725136,
+      "grad_norm": 0.3233121335506439,
+      "learning_rate": 8.099421936105702e-05,
+      "loss": 1.3604,
+      "step": 122
+    },
+    {
+      "epoch": 0.006906329398222884,
+      "grad_norm": 0.3374609351158142,
+      "learning_rate": 8.067716767472045e-05,
+      "loss": 1.3658,
+      "step": 123
+    },
+    {
+      "epoch": 0.006962478417720631,
+      "grad_norm": 0.32785022258758545,
+      "learning_rate": 8.035812539093557e-05,
+      "loss": 1.2985,
+      "step": 124
+    },
+    {
+      "epoch": 0.007018627437218377,
+      "grad_norm": 0.3212898075580597,
+      "learning_rate": 8.003711321189895e-05,
+      "loss": 1.285,
+      "step": 125
+    },
+    {
+      "epoch": 0.007074776456716125,
+      "grad_norm": 0.34439992904663086,
+      "learning_rate": 7.971415196763088e-05,
+      "loss": 1.4653,
+      "step": 126
+    },
+    {
+      "epoch": 0.007130925476213872,
+      "grad_norm": 0.34514302015304565,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.3337,
+      "step": 127
+    },
+    {
+      "epoch": 0.007187074495711618,
+      "grad_norm": 0.38126933574676514,
+      "learning_rate": 7.906246623448183e-05,
+      "loss": 1.3511,
+      "step": 128
+    },
+    {
+      "epoch": 0.007243223515209366,
+      "grad_norm": 0.34479570388793945,
+      "learning_rate": 7.873378403255419e-05,
+      "loss": 1.329,
+      "step": 129
+    },
+    {
+      "epoch": 0.007299372534707113,
+      "grad_norm": 0.34173834323883057,
+      "learning_rate": 7.840323733655778e-05,
+      "loss": 1.3119,
+      "step": 130
+    },
+    {
+      "epoch": 0.007355521554204859,
+      "grad_norm": 0.35819727182388306,
+      "learning_rate": 7.807084759519405e-05,
+      "loss": 1.3358,
+      "step": 131
+    },
+    {
+      "epoch": 0.007411670573702607,
+      "grad_norm": 0.35329777002334595,
+      "learning_rate": 7.773663637675694e-05,
+      "loss": 1.3238,
+      "step": 132
+    },
+    {
+      "epoch": 0.007467819593200354,
+      "grad_norm": 0.36197683215141296,
+      "learning_rate": 7.740062536773352e-05,
+      "loss": 1.2516,
+      "step": 133
+    },
+    {
+      "epoch": 0.0075239686126981,
+      "grad_norm": 0.36278480291366577,
+      "learning_rate": 7.706283637139658e-05,
+      "loss": 1.2106,
+      "step": 134
+    },
+    {
+      "epoch": 0.007580117632195848,
+      "grad_norm": 0.36338376998901367,
+      "learning_rate": 7.672329130639005e-05,
+      "loss": 1.2502,
+      "step": 135
+    },
+    {
+      "epoch": 0.007636266651693595,
+      "grad_norm": 0.369215190410614,
+      "learning_rate": 7.638201220530665e-05,
+      "loss": 1.3322,
+      "step": 136
+    },
+    {
+      "epoch": 0.007692415671191341,
+      "grad_norm": 0.3735330104827881,
+      "learning_rate": 7.603902121325813e-05,
+      "loss": 1.2302,
+      "step": 137
+    },
+    {
+      "epoch": 0.007748564690689089,
+      "grad_norm": 0.3798264265060425,
+      "learning_rate": 7.569434058643844e-05,
+      "loss": 1.4184,
+      "step": 138
+    },
+    {
+      "epoch": 0.007804713710186836,
+      "grad_norm": 0.3851505517959595,
+      "learning_rate": 7.534799269067953e-05,
+      "loss": 1.3757,
+      "step": 139
+    },
+    {
+      "epoch": 0.007860862729684583,
+      "grad_norm": 0.3895701467990875,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.2911,
+      "step": 140
+    },
+    {
+      "epoch": 0.00791701174918233,
+      "grad_norm": 0.3997504711151123,
+      "learning_rate": 7.465038509514688e-05,
+      "loss": 1.3938,
+      "step": 141
+    },
+    {
+      "epoch": 0.007973160768680076,
+      "grad_norm": 0.3898596465587616,
+      "learning_rate": 7.42991706621303e-05,
+      "loss": 1.2683,
+      "step": 142
+    },
+    {
+      "epoch": 0.008029309788177823,
+      "grad_norm": 0.42272382974624634,
+      "learning_rate": 7.394637949075154e-05,
+      "loss": 1.3499,
+      "step": 143
+    },
+    {
+      "epoch": 0.00808545880767557,
+      "grad_norm": 0.3854672610759735,
+      "learning_rate": 7.35920344731241e-05,
+      "loss": 1.2151,
+      "step": 144
+    },
+    {
+      "epoch": 0.008141607827173318,
+      "grad_norm": 0.39451897144317627,
+      "learning_rate": 7.323615860218843e-05,
+      "loss": 1.2315,
+      "step": 145
+    },
+    {
+      "epoch": 0.008197756846671065,
+      "grad_norm": 0.4249548614025116,
+      "learning_rate": 7.287877497021978e-05,
+      "loss": 1.1785,
+      "step": 146
+    },
+    {
+      "epoch": 0.008253905866168813,
+      "grad_norm": 0.43391963839530945,
+      "learning_rate": 7.251990676732984e-05,
+      "loss": 1.1203,
+      "step": 147
+    },
+    {
+      "epoch": 0.008310054885666558,
+      "grad_norm": 0.45870715379714966,
+      "learning_rate": 7.215957727996207e-05,
+      "loss": 1.1546,
+      "step": 148
+    },
+    {
+      "epoch": 0.008366203905164305,
+      "grad_norm": 0.4571928083896637,
+      "learning_rate": 7.179780988938051e-05,
+      "loss": 1.1424,
+      "step": 149
+    },
+    {
+      "epoch": 0.008422352924662053,
+      "grad_norm": 0.5306082963943481,
+      "learning_rate": 7.143462807015271e-05,
+      "loss": 0.979,
+      "step": 150
+    },
+    {
+      "epoch": 0.008422352924662053,
+      "eval_loss": 1.3391810655593872,
+      "eval_runtime": 499.3755,
+      "eval_samples_per_second": 60.065,
+      "eval_steps_per_second": 15.017,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0303319310336e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null