Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81828e3e61b4387228ad3c68a9ba9231d8672c73c1b05769197c2d6000a5a10c
 size 1157746040

 version https://git-lfs.github.com/spec/v1
+oid sha256:240e719bcd4fd491c2237e23258c8e39bca047342b7cc8bc8fdd9f49df12bdb3
 size 1157746040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5303af86a139a579e4e2c61f6de3133b66ded50e50fd29e4c9abf77182aacbe0
 size 588699796

 version https://git-lfs.github.com/spec/v1
+oid sha256:63b87cc3ac8b401765f602819af990d8bdfece651b5596734d6d6a8600928caf
 size 588699796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d914f88fd473c9ee149cb520f3e290d828f1c3cc7e21304f6d037422c1b59399
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a46691699b106230eff0c0cf4e82d75bf9752a9bea064a69a0f7866220b32ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac9085a964616f2d2af1a309022ca2f10b583138a852293c2266e9df64914089
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:191b4f74b8892fe464b31b446bc6f50032359ce22cb38236d5fdccf47f27920e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.635071337223053,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.10085728693898134,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 8.882,
       "eval_steps_per_second": 2.231,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.648580773235917e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6001591086387634,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.15128593040847202,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.882,
       "eval_steps_per_second": 2.231,
       "step": 100
+    },
+    {
+      "epoch": 0.10186585980837115,
+      "grad_norm": 0.7055741548538208,
+      "learning_rate": 5.2199052631578945e-05,
+      "loss": 0.6355,
+      "step": 101
+    },
+    {
+      "epoch": 0.10287443267776097,
+      "grad_norm": 0.7601715922355652,
+      "learning_rate": 5.167178947368422e-05,
+      "loss": 0.6535,
+      "step": 102
+    },
+    {
+      "epoch": 0.10388300554715078,
+      "grad_norm": 0.6638849973678589,
+      "learning_rate": 5.114452631578948e-05,
+      "loss": 0.6594,
+      "step": 103
+    },
+    {
+      "epoch": 0.10489157841654059,
+      "grad_norm": 0.5764726996421814,
+      "learning_rate": 5.061726315789474e-05,
+      "loss": 0.5227,
+      "step": 104
+    },
+    {
+      "epoch": 0.1059001512859304,
+      "grad_norm": 0.7011322975158691,
+      "learning_rate": 5.009e-05,
+      "loss": 0.6485,
+      "step": 105
+    },
+    {
+      "epoch": 0.10690872415532023,
+      "grad_norm": 0.6385596394538879,
+      "learning_rate": 4.9562736842105266e-05,
+      "loss": 0.617,
+      "step": 106
+    },
+    {
+      "epoch": 0.10791729702471003,
+      "grad_norm": 0.613409161567688,
+      "learning_rate": 4.903547368421053e-05,
+      "loss": 0.5565,
+      "step": 107
+    },
+    {
+      "epoch": 0.10892586989409984,
+      "grad_norm": 0.5934216976165771,
+      "learning_rate": 4.850821052631579e-05,
+      "loss": 0.5369,
+      "step": 108
+    },
+    {
+      "epoch": 0.10993444276348967,
+      "grad_norm": 0.5698984265327454,
+      "learning_rate": 4.7980947368421055e-05,
+      "loss": 0.5095,
+      "step": 109
+    },
+    {
+      "epoch": 0.11094301563287948,
+      "grad_norm": 0.6158843636512756,
+      "learning_rate": 4.745368421052632e-05,
+      "loss": 0.5607,
+      "step": 110
+    },
+    {
+      "epoch": 0.11195158850226929,
+      "grad_norm": 0.6479724645614624,
+      "learning_rate": 4.692642105263158e-05,
+      "loss": 0.4708,
+      "step": 111
+    },
+    {
+      "epoch": 0.1129601613716591,
+      "grad_norm": 0.7158260345458984,
+      "learning_rate": 4.6399157894736844e-05,
+      "loss": 0.6306,
+      "step": 112
+    },
+    {
+      "epoch": 0.11396873424104892,
+      "grad_norm": 0.6772667169570923,
+      "learning_rate": 4.5871894736842107e-05,
+      "loss": 0.5333,
+      "step": 113
+    },
+    {
+      "epoch": 0.11497730711043873,
+      "grad_norm": 0.6242232322692871,
+      "learning_rate": 4.5344631578947376e-05,
+      "loss": 0.5704,
+      "step": 114
+    },
+    {
+      "epoch": 0.11598587997982854,
+      "grad_norm": 0.6591203212738037,
+      "learning_rate": 4.481736842105263e-05,
+      "loss": 0.665,
+      "step": 115
+    },
+    {
+      "epoch": 0.11699445284921836,
+      "grad_norm": 0.6875463128089905,
+      "learning_rate": 4.4290105263157895e-05,
+      "loss": 0.546,
+      "step": 116
+    },
+    {
+      "epoch": 0.11800302571860817,
+      "grad_norm": 0.7117153406143188,
+      "learning_rate": 4.3762842105263165e-05,
+      "loss": 0.6204,
+      "step": 117
+    },
+    {
+      "epoch": 0.11901159858799798,
+      "grad_norm": 0.6039959192276001,
+      "learning_rate": 4.323557894736843e-05,
+      "loss": 0.635,
+      "step": 118
+    },
+    {
+      "epoch": 0.1200201714573878,
+      "grad_norm": 0.7009987235069275,
+      "learning_rate": 4.2708315789473684e-05,
+      "loss": 0.608,
+      "step": 119
+    },
+    {
+      "epoch": 0.12102874432677761,
+      "grad_norm": 0.6250441074371338,
+      "learning_rate": 4.218105263157895e-05,
+      "loss": 0.5882,
+      "step": 120
+    },
+    {
+      "epoch": 0.12203731719616742,
+      "grad_norm": 0.7398062944412231,
+      "learning_rate": 4.1653789473684217e-05,
+      "loss": 0.6349,
+      "step": 121
+    },
+    {
+      "epoch": 0.12304589006555723,
+      "grad_norm": 0.7030249834060669,
+      "learning_rate": 4.112652631578948e-05,
+      "loss": 0.6066,
+      "step": 122
+    },
+    {
+      "epoch": 0.12405446293494705,
+      "grad_norm": 0.7045819163322449,
+      "learning_rate": 4.0599263157894736e-05,
+      "loss": 0.6708,
+      "step": 123
+    },
+    {
+      "epoch": 0.12506303580433686,
+      "grad_norm": 0.6833453178405762,
+      "learning_rate": 4.0072000000000005e-05,
+      "loss": 0.6002,
+      "step": 124
+    },
+    {
+      "epoch": 0.1260716086737267,
+      "grad_norm": 0.8382267951965332,
+      "learning_rate": 3.954473684210527e-05,
+      "loss": 0.6854,
+      "step": 125
+    },
+    {
+      "epoch": 0.12708018154311648,
+      "grad_norm": 0.8998156189918518,
+      "learning_rate": 3.901747368421053e-05,
+      "loss": 0.5236,
+      "step": 126
+    },
+    {
+      "epoch": 0.1280887544125063,
+      "grad_norm": 0.6268869638442993,
+      "learning_rate": 3.849021052631579e-05,
+      "loss": 0.5159,
+      "step": 127
+    },
+    {
+      "epoch": 0.12909732728189613,
+      "grad_norm": 0.7306240797042847,
+      "learning_rate": 3.796294736842106e-05,
+      "loss": 0.6468,
+      "step": 128
+    },
+    {
+      "epoch": 0.13010590015128592,
+      "grad_norm": 0.696013331413269,
+      "learning_rate": 3.743568421052632e-05,
+      "loss": 0.5668,
+      "step": 129
+    },
+    {
+      "epoch": 0.13111447302067575,
+      "grad_norm": 0.6369208693504333,
+      "learning_rate": 3.6908421052631576e-05,
+      "loss": 0.5423,
+      "step": 130
+    },
+    {
+      "epoch": 0.13212304589006554,
+      "grad_norm": 0.711659848690033,
+      "learning_rate": 3.6381157894736846e-05,
+      "loss": 0.5699,
+      "step": 131
+    },
+    {
+      "epoch": 0.13313161875945537,
+      "grad_norm": 0.6578086614608765,
+      "learning_rate": 3.585389473684211e-05,
+      "loss": 0.4694,
+      "step": 132
+    },
+    {
+      "epoch": 0.1341401916288452,
+      "grad_norm": 0.7941672205924988,
+      "learning_rate": 3.532663157894737e-05,
+      "loss": 0.6442,
+      "step": 133
+    },
+    {
+      "epoch": 0.13514876449823499,
+      "grad_norm": 0.7573974132537842,
+      "learning_rate": 3.4799368421052634e-05,
+      "loss": 0.7441,
+      "step": 134
+    },
+    {
+      "epoch": 0.1361573373676248,
+      "grad_norm": 0.7425283789634705,
+      "learning_rate": 3.42721052631579e-05,
+      "loss": 0.6675,
+      "step": 135
+    },
+    {
+      "epoch": 0.13716591023701463,
+      "grad_norm": 0.6818085312843323,
+      "learning_rate": 3.374484210526316e-05,
+      "loss": 0.5508,
+      "step": 136
+    },
+    {
+      "epoch": 0.13817448310640443,
+      "grad_norm": 0.729345440864563,
+      "learning_rate": 3.321757894736842e-05,
+      "loss": 0.5426,
+      "step": 137
+    },
+    {
+      "epoch": 0.13918305597579425,
+      "grad_norm": 0.6872043013572693,
+      "learning_rate": 3.2690315789473686e-05,
+      "loss": 0.6318,
+      "step": 138
+    },
+    {
+      "epoch": 0.14019162884518407,
+      "grad_norm": 0.8204219937324524,
+      "learning_rate": 3.216305263157895e-05,
+      "loss": 0.6653,
+      "step": 139
+    },
+    {
+      "epoch": 0.14120020171457387,
+      "grad_norm": 0.788364827632904,
+      "learning_rate": 3.163578947368421e-05,
+      "loss": 0.6192,
+      "step": 140
+    },
+    {
+      "epoch": 0.1422087745839637,
+      "grad_norm": 0.7906739115715027,
+      "learning_rate": 3.1108526315789475e-05,
+      "loss": 0.6494,
+      "step": 141
+    },
+    {
+      "epoch": 0.14321734745335352,
+      "grad_norm": 0.8248524069786072,
+      "learning_rate": 3.058126315789474e-05,
+      "loss": 0.6254,
+      "step": 142
+    },
+    {
+      "epoch": 0.1442259203227433,
+      "grad_norm": 0.7894427180290222,
+      "learning_rate": 3.0054e-05,
+      "loss": 0.6097,
+      "step": 143
+    },
+    {
+      "epoch": 0.14523449319213314,
+      "grad_norm": 0.8506288528442383,
+      "learning_rate": 2.9526736842105263e-05,
+      "loss": 0.6809,
+      "step": 144
+    },
+    {
+      "epoch": 0.14624306606152296,
+      "grad_norm": 1.004377841949463,
+      "learning_rate": 2.899947368421053e-05,
+      "loss": 0.7994,
+      "step": 145
+    },
+    {
+      "epoch": 0.14725163893091275,
+      "grad_norm": 0.9447079300880432,
+      "learning_rate": 2.847221052631579e-05,
+      "loss": 0.7159,
+      "step": 146
+    },
+    {
+      "epoch": 0.14826021180030258,
+      "grad_norm": 0.9489012360572815,
+      "learning_rate": 2.7944947368421052e-05,
+      "loss": 0.7263,
+      "step": 147
+    },
+    {
+      "epoch": 0.14926878466969237,
+      "grad_norm": 0.9614557027816772,
+      "learning_rate": 2.741768421052632e-05,
+      "loss": 0.6547,
+      "step": 148
+    },
+    {
+      "epoch": 0.1502773575390822,
+      "grad_norm": 0.98894202709198,
+      "learning_rate": 2.689042105263158e-05,
+      "loss": 0.7373,
+      "step": 149
+    },
+    {
+      "epoch": 0.15128593040847202,
+      "grad_norm": 1.164485216140747,
+      "learning_rate": 2.636315789473684e-05,
+      "loss": 0.7158,
+      "step": 150
+    },
+    {
+      "epoch": 0.15128593040847202,
+      "eval_loss": 0.6001591086387634,
+      "eval_runtime": 47.5174,
+      "eval_samples_per_second": 8.797,
+      "eval_steps_per_second": 2.21,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2972871159853875e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null