Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d104602b068e835523d425f167a06f239955138a27b81f817138b2ceadea2de
 size 1157746040

 version https://git-lfs.github.com/spec/v1
+oid sha256:4943b5432191f4bd1d8e776c584ac18938ecbc7dd7c5abf90535e27f52748065
 size 1157746040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5050753d1514a1a9cf39f3689b8767e1c21607e35faef6b5590f77bffc94d6fd
 size 588699796

 version https://git-lfs.github.com/spec/v1
+oid sha256:869c796352468e6d3b898f828dff95fe0aaaf5dfc7bb2a0a2ba2e348c36d11de
 size 588699796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14d6303c34c1ed76e93f8132be3b3b9c67d0d525ef542e9090330c504fb65192
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:18228cd45feb2ff78b15c28b71c8b1c30d50eba6bc85861e1b43cf34c6e2d689
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fc6f64d19d6d9ae5737a64455691f33201e972a6660a4cac27b96ff28f10c06
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5f2068254def458b7bc10b909f0d55b265dc2a0afb1369a10fd37948299a71a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.116821765899658,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.12903225806451613,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 4.251,
       "eval_steps_per_second": 1.069,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.324290386617958e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.0592901706695557,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.25806451612903225,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.251,
       "eval_steps_per_second": 1.069,
       "step": 50
+    },
+    {
+      "epoch": 0.13161290322580646,
+      "grad_norm": 1.2032880783081055,
+      "learning_rate": 7.897e-05,
+      "loss": 2.8811,
+      "step": 51
+    },
+    {
+      "epoch": 0.13419354838709677,
+      "grad_norm": 0.9579372406005859,
+      "learning_rate": 7.843999999999999e-05,
+      "loss": 2.9946,
+      "step": 52
+    },
+    {
+      "epoch": 0.1367741935483871,
+      "grad_norm": 0.7830987572669983,
+      "learning_rate": 7.790999999999999e-05,
+      "loss": 2.8823,
+      "step": 53
+    },
+    {
+      "epoch": 0.1393548387096774,
+      "grad_norm": 0.6758972406387329,
+      "learning_rate": 7.738e-05,
+      "loss": 2.9346,
+      "step": 54
+    },
+    {
+      "epoch": 0.14193548387096774,
+      "grad_norm": 0.6744924187660217,
+      "learning_rate": 7.685e-05,
+      "loss": 2.8026,
+      "step": 55
+    },
+    {
+      "epoch": 0.14451612903225808,
+      "grad_norm": 0.6925913691520691,
+      "learning_rate": 7.632e-05,
+      "loss": 2.9121,
+      "step": 56
+    },
+    {
+      "epoch": 0.14709677419354839,
+      "grad_norm": 0.6952354311943054,
+      "learning_rate": 7.578999999999999e-05,
+      "loss": 2.9217,
+      "step": 57
+    },
+    {
+      "epoch": 0.14967741935483872,
+      "grad_norm": 0.6015385985374451,
+      "learning_rate": 7.526e-05,
+      "loss": 2.911,
+      "step": 58
+    },
+    {
+      "epoch": 0.15225806451612903,
+      "grad_norm": 0.6113649606704712,
+      "learning_rate": 7.473e-05,
+      "loss": 2.8453,
+      "step": 59
+    },
+    {
+      "epoch": 0.15483870967741936,
+      "grad_norm": 0.6024471521377563,
+      "learning_rate": 7.419999999999999e-05,
+      "loss": 2.7338,
+      "step": 60
+    },
+    {
+      "epoch": 0.15741935483870967,
+      "grad_norm": 0.6171099543571472,
+      "learning_rate": 7.367e-05,
+      "loss": 2.7157,
+      "step": 61
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.6734641790390015,
+      "learning_rate": 7.314e-05,
+      "loss": 3.0369,
+      "step": 62
+    },
+    {
+      "epoch": 0.1625806451612903,
+      "grad_norm": 0.6411603689193726,
+      "learning_rate": 7.261e-05,
+      "loss": 2.9175,
+      "step": 63
+    },
+    {
+      "epoch": 0.16516129032258065,
+      "grad_norm": 0.6401498913764954,
+      "learning_rate": 7.208e-05,
+      "loss": 2.9601,
+      "step": 64
+    },
+    {
+      "epoch": 0.16774193548387098,
+      "grad_norm": 0.6685578227043152,
+      "learning_rate": 7.154999999999999e-05,
+      "loss": 2.9055,
+      "step": 65
+    },
+    {
+      "epoch": 0.1703225806451613,
+      "grad_norm": 0.6739301681518555,
+      "learning_rate": 7.102e-05,
+      "loss": 2.8973,
+      "step": 66
+    },
+    {
+      "epoch": 0.17290322580645162,
+      "grad_norm": 0.6716254353523254,
+      "learning_rate": 7.049e-05,
+      "loss": 2.8507,
+      "step": 67
+    },
+    {
+      "epoch": 0.17548387096774193,
+      "grad_norm": 0.6408494710922241,
+      "learning_rate": 6.996e-05,
+      "loss": 2.8232,
+      "step": 68
+    },
+    {
+      "epoch": 0.17806451612903226,
+      "grad_norm": 0.6635752320289612,
+      "learning_rate": 6.943e-05,
+      "loss": 3.088,
+      "step": 69
+    },
+    {
+      "epoch": 0.18064516129032257,
+      "grad_norm": 0.710978090763092,
+      "learning_rate": 6.89e-05,
+      "loss": 2.8905,
+      "step": 70
+    },
+    {
+      "epoch": 0.1832258064516129,
+      "grad_norm": 0.7735083103179932,
+      "learning_rate": 6.837e-05,
+      "loss": 2.9583,
+      "step": 71
+    },
+    {
+      "epoch": 0.18580645161290324,
+      "grad_norm": 0.7552114725112915,
+      "learning_rate": 6.784e-05,
+      "loss": 2.8666,
+      "step": 72
+    },
+    {
+      "epoch": 0.18838709677419355,
+      "grad_norm": 0.8119356036186218,
+      "learning_rate": 6.730999999999999e-05,
+      "loss": 3.0893,
+      "step": 73
+    },
+    {
+      "epoch": 0.19096774193548388,
+      "grad_norm": 0.7227278351783752,
+      "learning_rate": 6.678e-05,
+      "loss": 2.9174,
+      "step": 74
+    },
+    {
+      "epoch": 0.1935483870967742,
+      "grad_norm": 0.7297806143760681,
+      "learning_rate": 6.625e-05,
+      "loss": 2.9618,
+      "step": 75
+    },
+    {
+      "epoch": 0.19612903225806452,
+      "grad_norm": 0.7950009107589722,
+      "learning_rate": 6.572e-05,
+      "loss": 2.8738,
+      "step": 76
+    },
+    {
+      "epoch": 0.19870967741935483,
+      "grad_norm": 0.7869434952735901,
+      "learning_rate": 6.519e-05,
+      "loss": 2.7843,
+      "step": 77
+    },
+    {
+      "epoch": 0.20129032258064516,
+      "grad_norm": 0.8707318902015686,
+      "learning_rate": 6.466e-05,
+      "loss": 3.1622,
+      "step": 78
+    },
+    {
+      "epoch": 0.20387096774193547,
+      "grad_norm": 0.8520801663398743,
+      "learning_rate": 6.413e-05,
+      "loss": 3.0377,
+      "step": 79
+    },
+    {
+      "epoch": 0.2064516129032258,
+      "grad_norm": 0.9687163233757019,
+      "learning_rate": 6.359999999999999e-05,
+      "loss": 3.0816,
+      "step": 80
+    },
+    {
+      "epoch": 0.20903225806451614,
+      "grad_norm": 0.8639389872550964,
+      "learning_rate": 6.306999999999999e-05,
+      "loss": 2.8825,
+      "step": 81
+    },
+    {
+      "epoch": 0.21161290322580645,
+      "grad_norm": 1.042325735092163,
+      "learning_rate": 6.254000000000001e-05,
+      "loss": 2.9446,
+      "step": 82
+    },
+    {
+      "epoch": 0.21419354838709678,
+      "grad_norm": 0.9391971230506897,
+      "learning_rate": 6.201e-05,
+      "loss": 3.0544,
+      "step": 83
+    },
+    {
+      "epoch": 0.2167741935483871,
+      "grad_norm": 1.0379990339279175,
+      "learning_rate": 6.148e-05,
+      "loss": 3.1278,
+      "step": 84
+    },
+    {
+      "epoch": 0.21935483870967742,
+      "grad_norm": 1.0052063465118408,
+      "learning_rate": 6.095e-05,
+      "loss": 3.0154,
+      "step": 85
+    },
+    {
+      "epoch": 0.22193548387096773,
+      "grad_norm": 1.1294814348220825,
+      "learning_rate": 6.0419999999999994e-05,
+      "loss": 2.9711,
+      "step": 86
+    },
+    {
+      "epoch": 0.22451612903225807,
+      "grad_norm": 1.1187207698822021,
+      "learning_rate": 5.988999999999999e-05,
+      "loss": 2.7353,
+      "step": 87
+    },
+    {
+      "epoch": 0.2270967741935484,
+      "grad_norm": 1.1556931734085083,
+      "learning_rate": 5.9359999999999994e-05,
+      "loss": 3.0027,
+      "step": 88
+    },
+    {
+      "epoch": 0.2296774193548387,
+      "grad_norm": 1.4021755456924438,
+      "learning_rate": 5.8830000000000004e-05,
+      "loss": 2.9716,
+      "step": 89
+    },
+    {
+      "epoch": 0.23225806451612904,
+      "grad_norm": 1.32869291305542,
+      "learning_rate": 5.83e-05,
+      "loss": 3.2768,
+      "step": 90
+    },
+    {
+      "epoch": 0.23483870967741935,
+      "grad_norm": 1.6008881330490112,
+      "learning_rate": 5.777e-05,
+      "loss": 3.2203,
+      "step": 91
+    },
+    {
+      "epoch": 0.23741935483870968,
+      "grad_norm": 1.739267349243164,
+      "learning_rate": 5.7239999999999994e-05,
+      "loss": 3.0869,
+      "step": 92
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.6709328889846802,
+      "learning_rate": 5.671e-05,
+      "loss": 3.1174,
+      "step": 93
+    },
+    {
+      "epoch": 0.24258064516129033,
+      "grad_norm": 2.5117313861846924,
+      "learning_rate": 5.6179999999999994e-05,
+      "loss": 3.2951,
+      "step": 94
+    },
+    {
+      "epoch": 0.24516129032258063,
+      "grad_norm": 2.1630053520202637,
+      "learning_rate": 5.5650000000000004e-05,
+      "loss": 3.3658,
+      "step": 95
+    },
+    {
+      "epoch": 0.24774193548387097,
+      "grad_norm": 2.027144193649292,
+      "learning_rate": 5.512e-05,
+      "loss": 3.3735,
+      "step": 96
+    },
+    {
+      "epoch": 0.2503225806451613,
+      "grad_norm": 2.5083370208740234,
+      "learning_rate": 5.459e-05,
+      "loss": 2.9347,
+      "step": 97
+    },
+    {
+      "epoch": 0.25290322580645164,
+      "grad_norm": 2.995940685272217,
+      "learning_rate": 5.406e-05,
+      "loss": 3.5815,
+      "step": 98
+    },
+    {
+      "epoch": 0.25548387096774194,
+      "grad_norm": 3.9194164276123047,
+      "learning_rate": 5.353e-05,
+      "loss": 3.3064,
+      "step": 99
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "grad_norm": 7.003715991973877,
+      "learning_rate": 5.2999999999999994e-05,
+      "loss": 3.744,
+      "step": 100
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "eval_loss": 3.0592901706695557,
+      "eval_runtime": 38.3187,
+      "eval_samples_per_second": 4.254,
+      "eval_steps_per_second": 1.07,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.417511821279232e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null