Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4256d7260da585cb38362625d5c6c6e714abf4c45c670df626b52ddd7d74b7d
 size 289452128

 version https://git-lfs.github.com/spec/v1
+oid sha256:957a4335205b6293dabccea2cc8744e323101fe3128e892012c6398f3141b97e
 size 289452128

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8cdfe117c660bcfd09b6659bcb97f09c2056cd54396e7bf0eac94e04133ba46
 size 147359892

 version https://git-lfs.github.com/spec/v1
+oid sha256:27e5da87183a0813f8e9b5e9df69cd1747666430fbc5bee02b42d7cba5a82ab8
 size 147359892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1983f721b360ca749bb29929a8141bbaf32429407675fa911781f839e1292ce6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0aa43bf4d3f1fc37c97372564e0bcfe641d92f3fc335e8df4b873fb1923b99d0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14c7988274ea42082ca98c4badf72b98ef1698024d0fb100dd463f8f4922415a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3388093bd4c4d331382d0016aa94fd7868af3fa4dd50305298d21879ce809e93
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5464621782302856,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.037091988130563795,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 23.096,
       "eval_steps_per_second": 5.774,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4136300131123200.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4849724769592285,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.07418397626112759,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.096,
       "eval_steps_per_second": 5.774,
       "step": 50
+    },
+    {
+      "epoch": 0.037833827893175076,
+      "grad_norm": 0.4841320216655731,
+      "learning_rate": 7.855436842105262e-05,
+      "loss": 1.4443,
+      "step": 51
+    },
+    {
+      "epoch": 0.03857566765578635,
+      "grad_norm": 0.46595099568367004,
+      "learning_rate": 7.802715789473684e-05,
+      "loss": 1.4447,
+      "step": 52
+    },
+    {
+      "epoch": 0.039317507418397624,
+      "grad_norm": 0.4743313491344452,
+      "learning_rate": 7.749994736842104e-05,
+      "loss": 1.4073,
+      "step": 53
+    },
+    {
+      "epoch": 0.040059347181008904,
+      "grad_norm": 0.46219533681869507,
+      "learning_rate": 7.697273684210526e-05,
+      "loss": 1.4843,
+      "step": 54
+    },
+    {
+      "epoch": 0.04080118694362018,
+      "grad_norm": 0.4498580992221832,
+      "learning_rate": 7.644552631578947e-05,
+      "loss": 1.3828,
+      "step": 55
+    },
+    {
+      "epoch": 0.04154302670623145,
+      "grad_norm": 0.4310692250728607,
+      "learning_rate": 7.591831578947369e-05,
+      "loss": 1.5251,
+      "step": 56
+    },
+    {
+      "epoch": 0.04228486646884273,
+      "grad_norm": 0.44536563754081726,
+      "learning_rate": 7.539110526315789e-05,
+      "loss": 1.5329,
+      "step": 57
+    },
+    {
+      "epoch": 0.04302670623145401,
+      "grad_norm": 0.4388580620288849,
+      "learning_rate": 7.48638947368421e-05,
+      "loss": 1.4534,
+      "step": 58
+    },
+    {
+      "epoch": 0.04376854599406528,
+      "grad_norm": 0.44389694929122925,
+      "learning_rate": 7.433668421052632e-05,
+      "loss": 1.6085,
+      "step": 59
+    },
+    {
+      "epoch": 0.04451038575667656,
+      "grad_norm": 0.42019519209861755,
+      "learning_rate": 7.380947368421052e-05,
+      "loss": 1.3532,
+      "step": 60
+    },
+    {
+      "epoch": 0.045252225519287835,
+      "grad_norm": 0.4290321469306946,
+      "learning_rate": 7.328226315789473e-05,
+      "loss": 1.4509,
+      "step": 61
+    },
+    {
+      "epoch": 0.04599406528189911,
+      "grad_norm": 0.44131532311439514,
+      "learning_rate": 7.275505263157895e-05,
+      "loss": 1.4341,
+      "step": 62
+    },
+    {
+      "epoch": 0.04673590504451038,
+      "grad_norm": 0.4584609866142273,
+      "learning_rate": 7.222784210526316e-05,
+      "loss": 1.4711,
+      "step": 63
+    },
+    {
+      "epoch": 0.04747774480712166,
+      "grad_norm": 0.45380136370658875,
+      "learning_rate": 7.170063157894737e-05,
+      "loss": 1.5905,
+      "step": 64
+    },
+    {
+      "epoch": 0.04821958456973294,
+      "grad_norm": 0.44095584750175476,
+      "learning_rate": 7.117342105263158e-05,
+      "loss": 1.3695,
+      "step": 65
+    },
+    {
+      "epoch": 0.04896142433234421,
+      "grad_norm": 0.43939009308815,
+      "learning_rate": 7.064621052631578e-05,
+      "loss": 1.4743,
+      "step": 66
+    },
+    {
+      "epoch": 0.04970326409495549,
+      "grad_norm": 0.44385743141174316,
+      "learning_rate": 7.0119e-05,
+      "loss": 1.3362,
+      "step": 67
+    },
+    {
+      "epoch": 0.050445103857566766,
+      "grad_norm": 0.46653878688812256,
+      "learning_rate": 6.959178947368421e-05,
+      "loss": 1.353,
+      "step": 68
+    },
+    {
+      "epoch": 0.05118694362017804,
+      "grad_norm": 0.49922919273376465,
+      "learning_rate": 6.906457894736843e-05,
+      "loss": 1.5815,
+      "step": 69
+    },
+    {
+      "epoch": 0.05192878338278932,
+      "grad_norm": 0.48967719078063965,
+      "learning_rate": 6.853736842105263e-05,
+      "loss": 1.6117,
+      "step": 70
+    },
+    {
+      "epoch": 0.052670623145400594,
+      "grad_norm": 0.5269822478294373,
+      "learning_rate": 6.801015789473684e-05,
+      "loss": 1.7096,
+      "step": 71
+    },
+    {
+      "epoch": 0.05341246290801187,
+      "grad_norm": 0.5190030932426453,
+      "learning_rate": 6.748294736842105e-05,
+      "loss": 1.5746,
+      "step": 72
+    },
+    {
+      "epoch": 0.05415430267062315,
+      "grad_norm": 0.5140092372894287,
+      "learning_rate": 6.695573684210526e-05,
+      "loss": 1.5915,
+      "step": 73
+    },
+    {
+      "epoch": 0.05489614243323442,
+      "grad_norm": 0.5112202167510986,
+      "learning_rate": 6.642852631578946e-05,
+      "loss": 1.5368,
+      "step": 74
+    },
+    {
+      "epoch": 0.055637982195845696,
+      "grad_norm": 0.45904073119163513,
+      "learning_rate": 6.590131578947369e-05,
+      "loss": 1.3563,
+      "step": 75
+    },
+    {
+      "epoch": 0.05637982195845697,
+      "grad_norm": 0.4861205816268921,
+      "learning_rate": 6.537410526315789e-05,
+      "loss": 1.4552,
+      "step": 76
+    },
+    {
+      "epoch": 0.05712166172106825,
+      "grad_norm": 0.5068615674972534,
+      "learning_rate": 6.484689473684211e-05,
+      "loss": 1.4687,
+      "step": 77
+    },
+    {
+      "epoch": 0.057863501483679525,
+      "grad_norm": 0.49406206607818604,
+      "learning_rate": 6.431968421052631e-05,
+      "loss": 1.4759,
+      "step": 78
+    },
+    {
+      "epoch": 0.0586053412462908,
+      "grad_norm": 0.4920863211154938,
+      "learning_rate": 6.379247368421052e-05,
+      "loss": 1.4521,
+      "step": 79
+    },
+    {
+      "epoch": 0.05934718100890208,
+      "grad_norm": 0.5270341038703918,
+      "learning_rate": 6.326526315789474e-05,
+      "loss": 1.6008,
+      "step": 80
+    },
+    {
+      "epoch": 0.06008902077151335,
+      "grad_norm": 0.5248571038246155,
+      "learning_rate": 6.273805263157894e-05,
+      "loss": 1.6934,
+      "step": 81
+    },
+    {
+      "epoch": 0.06083086053412463,
+      "grad_norm": 0.519171416759491,
+      "learning_rate": 6.221084210526315e-05,
+      "loss": 1.5087,
+      "step": 82
+    },
+    {
+      "epoch": 0.06157270029673591,
+      "grad_norm": 0.4932954013347626,
+      "learning_rate": 6.168363157894737e-05,
+      "loss": 1.3543,
+      "step": 83
+    },
+    {
+      "epoch": 0.06231454005934718,
+      "grad_norm": 0.5216118097305298,
+      "learning_rate": 6.115642105263159e-05,
+      "loss": 1.4453,
+      "step": 84
+    },
+    {
+      "epoch": 0.06305637982195846,
+      "grad_norm": 0.5293753147125244,
+      "learning_rate": 6.0629210526315787e-05,
+      "loss": 1.4051,
+      "step": 85
+    },
+    {
+      "epoch": 0.06379821958456973,
+      "grad_norm": 0.5512006878852844,
+      "learning_rate": 6.0101999999999995e-05,
+      "loss": 1.4588,
+      "step": 86
+    },
+    {
+      "epoch": 0.064540059347181,
+      "grad_norm": 0.5609034895896912,
+      "learning_rate": 5.95747894736842e-05,
+      "loss": 1.5523,
+      "step": 87
+    },
+    {
+      "epoch": 0.06528189910979229,
+      "grad_norm": 0.6228796243667603,
+      "learning_rate": 5.904757894736841e-05,
+      "loss": 1.563,
+      "step": 88
+    },
+    {
+      "epoch": 0.06602373887240356,
+      "grad_norm": 0.6174453496932983,
+      "learning_rate": 5.852036842105263e-05,
+      "loss": 1.6785,
+      "step": 89
+    },
+    {
+      "epoch": 0.06676557863501484,
+      "grad_norm": 0.560930609703064,
+      "learning_rate": 5.799315789473684e-05,
+      "loss": 1.5602,
+      "step": 90
+    },
+    {
+      "epoch": 0.06750741839762611,
+      "grad_norm": 0.5620979070663452,
+      "learning_rate": 5.746594736842105e-05,
+      "loss": 1.4652,
+      "step": 91
+    },
+    {
+      "epoch": 0.06824925816023739,
+      "grad_norm": 0.5614945888519287,
+      "learning_rate": 5.693873684210526e-05,
+      "loss": 1.4533,
+      "step": 92
+    },
+    {
+      "epoch": 0.06899109792284866,
+      "grad_norm": 0.6170912384986877,
+      "learning_rate": 5.641152631578947e-05,
+      "loss": 1.5405,
+      "step": 93
+    },
+    {
+      "epoch": 0.06973293768545995,
+      "grad_norm": 0.6051465272903442,
+      "learning_rate": 5.588431578947368e-05,
+      "loss": 1.3788,
+      "step": 94
+    },
+    {
+      "epoch": 0.07047477744807122,
+      "grad_norm": 0.612392008304596,
+      "learning_rate": 5.5357105263157896e-05,
+      "loss": 1.513,
+      "step": 95
+    },
+    {
+      "epoch": 0.0712166172106825,
+      "grad_norm": 0.5922538638114929,
+      "learning_rate": 5.482989473684211e-05,
+      "loss": 1.6693,
+      "step": 96
+    },
+    {
+      "epoch": 0.07195845697329377,
+      "grad_norm": 0.6305238604545593,
+      "learning_rate": 5.430268421052632e-05,
+      "loss": 1.5546,
+      "step": 97
+    },
+    {
+      "epoch": 0.07270029673590504,
+      "grad_norm": 0.6214465498924255,
+      "learning_rate": 5.377547368421053e-05,
+      "loss": 1.4541,
+      "step": 98
+    },
+    {
+      "epoch": 0.07344213649851632,
+      "grad_norm": 0.6209021806716919,
+      "learning_rate": 5.3248263157894736e-05,
+      "loss": 1.4974,
+      "step": 99
+    },
+    {
+      "epoch": 0.07418397626112759,
+      "grad_norm": 0.7504584193229675,
+      "learning_rate": 5.2721052631578944e-05,
+      "loss": 1.7205,
+      "step": 100
+    },
+    {
+      "epoch": 0.07418397626112759,
+      "eval_loss": 1.4849724769592285,
+      "eval_runtime": 24.627,
+      "eval_samples_per_second": 23.064,
+      "eval_steps_per_second": 5.766,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8272600262246400.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null