Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc8329b833df263ade07655e447618245b3e5d4cc3eda1d0591aa135d25d0894
 size 72936

 version https://git-lfs.github.com/spec/v1
+oid sha256:68f3a2fd180656a2321e1ad89d3037ea82639d6bc086312cbab1f9eea6fab2f6
 size 72936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:730b07eaadcb31489cd9e5b68a8040902b91a3e736524200cc22dd39fe92418b
 size 151106

 version https://git-lfs.github.com/spec/v1
+oid sha256:138a8e60335004b7ebbb59a08d2c692dfe2b2f922b57506d9174400ca40200fa
 size 151106

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58ad5c339ca89f9230479249d71a6025f6a2173e7bde89a2290f94338039460a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d883b5711f7820f8c0e95d92e1def4a77df7b9d9c954cdd897d2967dfc6fc9b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 12.453710556030273,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.047573739295908656,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 113.812,
       "eval_steps_per_second": 28.485,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 221758095360.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 12.433951377868652,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.09514747859181731,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 113.812,
       "eval_steps_per_second": 28.485,
       "step": 50
+    },
+    {
+      "epoch": 0.048525214081826834,
+      "grad_norm": 0.04241883382201195,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 12.453,
+      "step": 51
+    },
+    {
+      "epoch": 0.049476688867745006,
+      "grad_norm": 0.040811438113451004,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 12.4532,
+      "step": 52
+    },
+    {
+      "epoch": 0.05042816365366318,
+      "grad_norm": 0.04538936913013458,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 12.4549,
+      "step": 53
+    },
+    {
+      "epoch": 0.05137963843958135,
+      "grad_norm": 0.04279905930161476,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 12.4553,
+      "step": 54
+    },
+    {
+      "epoch": 0.05233111322549953,
+      "grad_norm": 0.04463065788149834,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 12.4545,
+      "step": 55
+    },
+    {
+      "epoch": 0.0532825880114177,
+      "grad_norm": 0.045460935682058334,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 12.4536,
+      "step": 56
+    },
+    {
+      "epoch": 0.05423406279733587,
+      "grad_norm": 0.04949776828289032,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 12.453,
+      "step": 57
+    },
+    {
+      "epoch": 0.05518553758325404,
+      "grad_norm": 0.048668451607227325,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 12.4534,
+      "step": 58
+    },
+    {
+      "epoch": 0.056137012369172214,
+      "grad_norm": 0.05029277876019478,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 12.4509,
+      "step": 59
+    },
+    {
+      "epoch": 0.05708848715509039,
+      "grad_norm": 0.04988345131278038,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 12.4542,
+      "step": 60
+    },
+    {
+      "epoch": 0.058039961941008564,
+      "grad_norm": 0.057984285056591034,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 12.4528,
+      "step": 61
+    },
+    {
+      "epoch": 0.058991436726926735,
+      "grad_norm": 0.055844224989414215,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 12.4509,
+      "step": 62
+    },
+    {
+      "epoch": 0.05994291151284491,
+      "grad_norm": 0.05761745199561119,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 12.4493,
+      "step": 63
+    },
+    {
+      "epoch": 0.060894386298763085,
+      "grad_norm": 0.056190405040979385,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 12.4529,
+      "step": 64
+    },
+    {
+      "epoch": 0.06184586108468126,
+      "grad_norm": 0.06360480189323425,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 12.4507,
+      "step": 65
+    },
+    {
+      "epoch": 0.06279733587059944,
+      "grad_norm": 0.06286083161830902,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 12.4494,
+      "step": 66
+    },
+    {
+      "epoch": 0.06374881065651761,
+      "grad_norm": 0.06642145663499832,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 12.4516,
+      "step": 67
+    },
+    {
+      "epoch": 0.06470028544243578,
+      "grad_norm": 0.06627269089221954,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 12.4492,
+      "step": 68
+    },
+    {
+      "epoch": 0.06565176022835395,
+      "grad_norm": 0.07501520216464996,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 12.4477,
+      "step": 69
+    },
+    {
+      "epoch": 0.06660323501427212,
+      "grad_norm": 0.07477276027202606,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 12.4466,
+      "step": 70
+    },
+    {
+      "epoch": 0.0675547098001903,
+      "grad_norm": 0.0773748978972435,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 12.4473,
+      "step": 71
+    },
+    {
+      "epoch": 0.06850618458610847,
+      "grad_norm": 0.0730040967464447,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 12.4467,
+      "step": 72
+    },
+    {
+      "epoch": 0.06945765937202664,
+      "grad_norm": 0.07389922440052032,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 12.4449,
+      "step": 73
+    },
+    {
+      "epoch": 0.07040913415794481,
+      "grad_norm": 0.08344914764165878,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 12.4473,
+      "step": 74
+    },
+    {
+      "epoch": 0.071360608943863,
+      "grad_norm": 0.08166919648647308,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 12.4463,
+      "step": 75
+    },
+    {
+      "epoch": 0.07231208372978117,
+      "grad_norm": 0.07941465824842453,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 12.4457,
+      "step": 76
+    },
+    {
+      "epoch": 0.07326355851569934,
+      "grad_norm": 0.08082740008831024,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 12.4444,
+      "step": 77
+    },
+    {
+      "epoch": 0.07421503330161751,
+      "grad_norm": 0.08413875848054886,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 12.4461,
+      "step": 78
+    },
+    {
+      "epoch": 0.07516650808753568,
+      "grad_norm": 0.09172741323709488,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 12.4452,
+      "step": 79
+    },
+    {
+      "epoch": 0.07611798287345385,
+      "grad_norm": 0.09037219732999802,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 12.4443,
+      "step": 80
+    },
+    {
+      "epoch": 0.07706945765937202,
+      "grad_norm": 0.09228965640068054,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 12.4366,
+      "step": 81
+    },
+    {
+      "epoch": 0.0780209324452902,
+      "grad_norm": 0.08169149607419968,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 12.4429,
+      "step": 82
+    },
+    {
+      "epoch": 0.07897240723120837,
+      "grad_norm": 0.09187179803848267,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 12.4403,
+      "step": 83
+    },
+    {
+      "epoch": 0.07992388201712655,
+      "grad_norm": 0.09605192393064499,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 12.44,
+      "step": 84
+    },
+    {
+      "epoch": 0.08087535680304472,
+      "grad_norm": 0.1012379601597786,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 12.4397,
+      "step": 85
+    },
+    {
+      "epoch": 0.0818268315889629,
+      "grad_norm": 0.09477464854717255,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 12.4398,
+      "step": 86
+    },
+    {
+      "epoch": 0.08277830637488107,
+      "grad_norm": 0.09537472575902939,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 12.4408,
+      "step": 87
+    },
+    {
+      "epoch": 0.08372978116079924,
+      "grad_norm": 0.09693397581577301,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 12.4391,
+      "step": 88
+    },
+    {
+      "epoch": 0.08468125594671741,
+      "grad_norm": 0.09416460990905762,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 12.4377,
+      "step": 89
+    },
+    {
+      "epoch": 0.08563273073263558,
+      "grad_norm": 0.09926611185073853,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 12.4386,
+      "step": 90
+    },
+    {
+      "epoch": 0.08658420551855375,
+      "grad_norm": 0.09036323428153992,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 12.439,
+      "step": 91
+    },
+    {
+      "epoch": 0.08753568030447194,
+      "grad_norm": 0.09396945685148239,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 12.436,
+      "step": 92
+    },
+    {
+      "epoch": 0.08848715509039011,
+      "grad_norm": 0.10250120609998703,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 12.4326,
+      "step": 93
+    },
+    {
+      "epoch": 0.08943862987630828,
+      "grad_norm": 0.09737430512905121,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 12.4376,
+      "step": 94
+    },
+    {
+      "epoch": 0.09039010466222645,
+      "grad_norm": 0.098517045378685,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 12.4316,
+      "step": 95
+    },
+    {
+      "epoch": 0.09134157944814462,
+      "grad_norm": 0.09766911715269089,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 12.4382,
+      "step": 96
+    },
+    {
+      "epoch": 0.0922930542340628,
+      "grad_norm": 0.10806909203529358,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 12.4331,
+      "step": 97
+    },
+    {
+      "epoch": 0.09324452901998097,
+      "grad_norm": 0.08718223124742508,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 12.4352,
+      "step": 98
+    },
+    {
+      "epoch": 0.09419600380589914,
+      "grad_norm": 0.09523314237594604,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 12.4348,
+      "step": 99
+    },
+    {
+      "epoch": 0.09514747859181731,
+      "grad_norm": 0.09032314270734787,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 12.4365,
+      "step": 100
+    },
+    {
+      "epoch": 0.09514747859181731,
+      "eval_loss": 12.433951377868652,
+      "eval_runtime": 15.6067,
+      "eval_samples_per_second": 113.413,
+      "eval_steps_per_second": 28.385,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 443516190720.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null