Training in progress, step 2000, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93d63750fbfa5cd8f3d3d09d202f1a9092b56ec6d7bba4992f11110b44c05e85
 size 966995080

 version https://git-lfs.github.com/spec/v1
+oid sha256:1627e1860168745dc7894ff2e9c9b8114aa1c16458ababd20bc8dd256fc593a4
 size 966995080

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e72343fb815a2302ed4364b31ab5cf8b9f2c4258a461e9416b5ab8eee21abb27
 size 1925064044

 version https://git-lfs.github.com/spec/v1
+oid sha256:7446e0362efd41a2d57580f3df0c8a0989e1f34b671d5980b42b3ecc03336c36
 size 1925064044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f96556c91f78b167a3a23f1c3f779be5f90901a0a97f9cd4811d2ba7a3f74c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b23f626a7efa36d01f5e36f3f34d543aac465661afc2ed75e47913bc2ba74c7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac4afd95bb0ddfe3c09279bb130184beaca309f98a20634196f6c6a08c2e05d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:73c1e9d4c6f9361869311d8df318c84d0329122c83c7e35b5aebcbb60aca4858
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 96.39777735198314,
   "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-1000",
-  "epoch": 9.554140127388536,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -457,6 +457,156 @@
       "eval_wer": 103.04656064380148,
       "eval_wer_ortho": 104.1015625,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -476,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.91566053326848e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 96.39777735198314,
   "best_model_checkpoint": "./whisper-small-ha-v3/checkpoint-1000",
+  "epoch": 12.738853503184714,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_wer": 103.04656064380148,
       "eval_wer_ortho": 104.1015625,
       "step": 1500
+    },
+    {
+      "epoch": 9.713375796178344,
+      "grad_norm": 5.422865390777588,
+      "learning_rate": 0.0005,
+      "loss": 1.0079,
+      "step": 1525
+    },
+    {
+      "epoch": 9.872611464968152,
+      "grad_norm": 5.475556373596191,
+      "learning_rate": 0.0005,
+      "loss": 1.0126,
+      "step": 1550
+    },
+    {
+      "epoch": 10.031847133757962,
+      "grad_norm": 5.356685161590576,
+      "learning_rate": 0.0005,
+      "loss": 0.9727,
+      "step": 1575
+    },
+    {
+      "epoch": 10.19108280254777,
+      "grad_norm": 5.031153202056885,
+      "learning_rate": 0.0005,
+      "loss": 0.8431,
+      "step": 1600
+    },
+    {
+      "epoch": 10.35031847133758,
+      "grad_norm": 5.827383518218994,
+      "learning_rate": 0.0005,
+      "loss": 0.8888,
+      "step": 1625
+    },
+    {
+      "epoch": 10.509554140127388,
+      "grad_norm": 5.030758857727051,
+      "learning_rate": 0.0005,
+      "loss": 0.9165,
+      "step": 1650
+    },
+    {
+      "epoch": 10.668789808917197,
+      "grad_norm": 5.023013114929199,
+      "learning_rate": 0.0005,
+      "loss": 0.9541,
+      "step": 1675
+    },
+    {
+      "epoch": 10.828025477707007,
+      "grad_norm": 5.8825602531433105,
+      "learning_rate": 0.0005,
+      "loss": 0.9576,
+      "step": 1700
+    },
+    {
+      "epoch": 10.987261146496815,
+      "grad_norm": 5.114201068878174,
+      "learning_rate": 0.0005,
+      "loss": 0.9793,
+      "step": 1725
+    },
+    {
+      "epoch": 11.146496815286625,
+      "grad_norm": 4.3722333908081055,
+      "learning_rate": 0.0005,
+      "loss": 0.7909,
+      "step": 1750
+    },
+    {
+      "epoch": 11.305732484076433,
+      "grad_norm": 4.9860382080078125,
+      "learning_rate": 0.0005,
+      "loss": 0.858,
+      "step": 1775
+    },
+    {
+      "epoch": 11.464968152866241,
+      "grad_norm": 5.144904613494873,
+      "learning_rate": 0.0005,
+      "loss": 0.8842,
+      "step": 1800
+    },
+    {
+      "epoch": 11.624203821656051,
+      "grad_norm": 4.30189847946167,
+      "learning_rate": 0.0005,
+      "loss": 0.8925,
+      "step": 1825
+    },
+    {
+      "epoch": 11.78343949044586,
+      "grad_norm": 5.091893672943115,
+      "learning_rate": 0.0005,
+      "loss": 0.9188,
+      "step": 1850
+    },
+    {
+      "epoch": 11.94267515923567,
+      "grad_norm": 5.179553508758545,
+      "learning_rate": 0.0005,
+      "loss": 0.9309,
+      "step": 1875
+    },
+    {
+      "epoch": 12.101910828025478,
+      "grad_norm": 5.5085225105285645,
+      "learning_rate": 0.0005,
+      "loss": 0.8213,
+      "step": 1900
+    },
+    {
+      "epoch": 12.261146496815286,
+      "grad_norm": 5.253794193267822,
+      "learning_rate": 0.0005,
+      "loss": 0.8155,
+      "step": 1925
+    },
+    {
+      "epoch": 12.420382165605096,
+      "grad_norm": 4.998741149902344,
+      "learning_rate": 0.0005,
+      "loss": 0.8479,
+      "step": 1950
+    },
+    {
+      "epoch": 12.579617834394904,
+      "grad_norm": 5.674376010894775,
+      "learning_rate": 0.0005,
+      "loss": 0.8773,
+      "step": 1975
+    },
+    {
+      "epoch": 12.738853503184714,
+      "grad_norm": 5.010542869567871,
+      "learning_rate": 0.0005,
+      "loss": 0.8844,
+      "step": 2000
+    },
+    {
+      "epoch": 12.738853503184714,
+      "eval_loss": 5.002076148986816,
+      "eval_runtime": 288.6571,
+      "eval_samples_per_second": 2.286,
+      "eval_steps_per_second": 0.146,
+      "eval_wer": 109.04387813757425,
+      "eval_wer_ortho": 108.59375,
+      "step": 2000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 9.22088071102464e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null