Upload 17 files

Browse files

Files changed (7) hide show

README.md +20 -15
all_results.json +10 -10
eval_results.json +6 -6
model.safetensors +3 -0
train_results.json +4 -4
trainer_state.json +147 -62
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -9,7 +9,7 @@ datasets:
 metrics:
 - wer
 model-index:
-- name: finetune
   results:
   - task:
       name: Automatic Speech Recognition
@@ -23,19 +23,19 @@ model-index:
     metrics:
     - name: Wer
       type: wer
-      value: 0.7835602493955974
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# finetune
 This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the lalipa/jv_id_asr_split jv_id_asr_source dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.7784
-- Wer: 0.7836
-- Cer: 0.2535
 ## Model description
@@ -55,25 +55,30 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
-- train_batch_size: 32
 - eval_batch_size: 16
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 64
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 30
-- training_steps: 150
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:------:|:----:|:---------------:|:------:|:------:|
-| 3.6903        | 0.2041 | 30   | 2.9875          | 1.0127 | 0.4365 |
-| 2.533         | 0.4082 | 60   | 2.2360          | 0.8879 | 0.2921 |
-| 2.0604        | 0.6122 | 90   | 1.9514          | 0.8253 | 0.2670 |
-| 1.852         | 0.8163 | 120  | 1.8182          | 0.7949 | 0.2581 |
-| 1.7929        | 1.0204 | 150  | 1.7784          | 0.7836 | 0.2535 |
 ### Framework versions

 metrics:
 - wer
 model-index:
+- name: hyperparameter
   results:
   - task:
       name: Automatic Speech Recognition
     metrics:
     - name: Wer
       type: wer
+      value: 0.6883827458964245
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# hyperparameter
 This model is a fine-tuned version of [openai/whisper-tiny.en](https://huggingface.co/openai/whisper-tiny.en) on the lalipa/jv_id_asr_split jv_id_asr_source dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.4506
+- Wer: 0.6884
+- Cer: 0.2050
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 1e-05
+- train_batch_size: 16
 - eval_batch_size: 16
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 32
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- lr_scheduler_warmup_steps: 100
+- training_steps: 300
 ### Training results
 | Training Loss | Epoch  | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:------:|:----:|:---------------:|:------:|:------:|
+| 3.9694        | 0.1020 | 30   | 3.7782          | 1.8748 | 1.0887 |
+| 3.3735        | 0.2041 | 60   | 2.9598          | 1.0019 | 0.4254 |
+| 2.5449        | 0.3061 | 90   | 2.1989          | 0.8820 | 0.3221 |
+| 1.9987        | 0.4082 | 120  | 1.8648          | 0.8004 | 0.2606 |
+| 1.7671        | 0.5102 | 150  | 1.6909          | 0.7619 | 0.2312 |
+| 1.6285        | 0.6122 | 180  | 1.5863          | 0.7336 | 0.2245 |
+| 1.5475        | 0.7143 | 210  | 1.5251          | 0.7216 | 0.2213 |
+| 1.4793        | 0.8163 | 240  | 1.4807          | 0.6942 | 0.2035 |
+| 1.5013        | 0.9184 | 270  | 1.4582          | 0.6904 | 0.2057 |
+| 1.4438        | 1.0204 | 300  | 1.4506          | 0.6884 | 0.2050 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.0204081632653061,
-    "eval_cer": 0.253486835896952,
-    "eval_loss": 1.7784144878387451,
-    "eval_runtime": 159.8385,
     "eval_samples": 1136,
-    "eval_samples_per_second": 7.107,
-    "eval_steps_per_second": 0.444,
-    "eval_wer": 0.7835602493955974,
     "total_flos": 2.3614434607104e+17,
-    "train_loss": 2.385703277587891,
-    "train_runtime": 5094.7107,
     "train_samples": 9400,
-    "train_samples_per_second": 1.884,
-    "train_steps_per_second": 0.029
 }

 {
     "epoch": 1.0204081632653061,
+    "eval_cer": 0.20496366896291404,
+    "eval_loss": 1.4505608081817627,
+    "eval_runtime": 170.4457,
     "eval_samples": 1136,
+    "eval_samples_per_second": 6.665,
+    "eval_steps_per_second": 0.417,
+    "eval_wer": 0.6883827458964245,
     "total_flos": 2.3614434607104e+17,
+    "train_loss": 2.125396842956543,
+    "train_runtime": 3027.4927,
     "train_samples": 9400,
+    "train_samples_per_second": 3.171,
+    "train_steps_per_second": 0.099
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0204081632653061,
-    "eval_cer": 0.253486835896952,
-    "eval_loss": 1.7784144878387451,
-    "eval_runtime": 159.8385,
     "eval_samples": 1136,
-    "eval_samples_per_second": 7.107,
-    "eval_steps_per_second": 0.444,
-    "eval_wer": 0.7835602493955974
 }

 {
     "epoch": 1.0204081632653061,
+    "eval_cer": 0.20496366896291404,
+    "eval_loss": 1.4505608081817627,
+    "eval_runtime": 170.4457,
     "eval_samples": 1136,
+    "eval_samples_per_second": 6.665,
+    "eval_steps_per_second": 0.417,
+    "eval_wer": 0.6883827458964245
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6f00ae2f8b1baee3e68c188dd5930ce91257cfd62060f4a93fc39e101675c14
+size 151060136

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0204081632653061,
     "total_flos": 2.3614434607104e+17,
-    "train_loss": 2.385703277587891,
-    "train_runtime": 5094.7107,
     "train_samples": 9400,
-    "train_samples_per_second": 1.884,
-    "train_steps_per_second": 0.029
 }

 {
     "epoch": 1.0204081632653061,
     "total_flos": 2.3614434607104e+17,
+    "train_loss": 2.125396842956543,
+    "train_runtime": 3027.4927,
     "train_samples": 9400,
+    "train_samples_per_second": 3.171,
+    "train_steps_per_second": 0.099
 }

trainer_state.json CHANGED Viewed

@@ -3,108 +3,193 @@
   "best_model_checkpoint": null,
   "epoch": 1.0204081632653061,
   "eval_steps": 30,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.20408163265306123,
-      "grad_norm": 28829.30859375,
-      "learning_rate": 1e-05,
-      "loss": 3.6903,
       "step": 30
     },
     {
-      "epoch": 0.20408163265306123,
-      "eval_cer": 0.43646314994809854,
-      "eval_loss": 2.987450122833252,
-      "eval_runtime": 203.3511,
-      "eval_samples_per_second": 5.586,
-      "eval_steps_per_second": 0.349,
-      "eval_wer": 1.0127242651736863,
       "step": 30
     },
     {
-      "epoch": 0.40816326530612246,
-      "grad_norm": 26780.62109375,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 2.533,
       "step": 60
     },
     {
-      "epoch": 0.40816326530612246,
-      "eval_cer": 0.2920826649051618,
-      "eval_loss": 2.235991954803467,
-      "eval_runtime": 163.1323,
-      "eval_samples_per_second": 6.964,
-      "eval_steps_per_second": 0.435,
-      "eval_wer": 0.8878992238198244,
       "step": 60
     },
     {
-      "epoch": 0.6122448979591837,
-      "grad_norm": 9.42530632019043,
-      "learning_rate": 5e-06,
-      "loss": 2.0604,
       "step": 90
     },
     {
-      "epoch": 0.6122448979591837,
-      "eval_cer": 0.26696234783429273,
-      "eval_loss": 1.951379656791687,
-      "eval_runtime": 171.6219,
-      "eval_samples_per_second": 6.619,
-      "eval_steps_per_second": 0.414,
-      "eval_wer": 0.8252958391652883,
       "step": 90
     },
     {
-      "epoch": 0.8163265306122449,
-      "grad_norm": 724720.0625,
-      "learning_rate": 2.5e-06,
-      "loss": 1.852,
       "step": 120
     },
     {
-      "epoch": 0.8163265306122449,
-      "eval_cer": 0.25809191280551097,
-      "eval_loss": 1.8181612491607666,
-      "eval_runtime": 180.4927,
-      "eval_samples_per_second": 6.294,
-      "eval_steps_per_second": 0.393,
-      "eval_wer": 0.7948848454001781,
       "step": 120
     },
     {
       "epoch": 1.0204081632653061,
-      "grad_norm": 9.10916519165039,
       "learning_rate": 0.0,
-      "loss": 1.7929,
-      "step": 150
     },
     {
       "epoch": 1.0204081632653061,
-      "eval_cer": 0.253486835896952,
-      "eval_loss": 1.7784144878387451,
-      "eval_runtime": 183.691,
-      "eval_samples_per_second": 6.184,
-      "eval_steps_per_second": 0.387,
-      "eval_wer": 0.7835602493955974,
-      "step": 150
     },
     {
       "epoch": 1.0204081632653061,
-      "step": 150,
       "total_flos": 2.3614434607104e+17,
-      "train_loss": 2.385703277587891,
-      "train_runtime": 5094.7107,
-      "train_samples_per_second": 1.884,
-      "train_steps_per_second": 0.029
     }
   ],
   "logging_steps": 30,
-  "max_steps": 150,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 30,
@@ -121,7 +206,7 @@
     }
   },
   "total_flos": 2.3614434607104e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 1.0204081632653061,
   "eval_steps": 30,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.10204081632653061,
+      "grad_norm": 32.964595794677734,
+      "learning_rate": 3e-06,
+      "loss": 3.9694,
       "step": 30
     },
     {
+      "epoch": 0.10204081632653061,
+      "eval_cer": 1.08866660375578,
+      "eval_loss": 3.778170347213745,
+      "eval_runtime": 309.6504,
+      "eval_samples_per_second": 3.669,
+      "eval_steps_per_second": 0.229,
+      "eval_wer": 1.8747932306909276,
       "step": 30
     },
     {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 17.289554595947266,
+      "learning_rate": 6e-06,
+      "loss": 3.3735,
       "step": 60
     },
     {
+      "epoch": 0.20408163265306123,
+      "eval_cer": 0.42536566952911203,
+      "eval_loss": 2.9597644805908203,
+      "eval_runtime": 203.9425,
+      "eval_samples_per_second": 5.57,
+      "eval_steps_per_second": 0.348,
+      "eval_wer": 1.0019086397760528,
       "step": 60
     },
     {
+      "epoch": 0.30612244897959184,
+      "grad_norm": 14.627169609069824,
+      "learning_rate": 9e-06,
+      "loss": 2.5449,
       "step": 90
     },
     {
+      "epoch": 0.30612244897959184,
+      "eval_cer": 0.3221289044069076,
+      "eval_loss": 2.198906421661377,
+      "eval_runtime": 188.0543,
+      "eval_samples_per_second": 6.041,
+      "eval_steps_per_second": 0.378,
+      "eval_wer": 0.8820460618399287,
       "step": 90
     },
     {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 17.809280395507812,
+      "learning_rate": 9e-06,
+      "loss": 1.9987,
       "step": 120
     },
     {
+      "epoch": 0.40816326530612246,
+      "eval_cer": 0.2606398037180334,
+      "eval_loss": 1.8648453950881958,
+      "eval_runtime": 173.0054,
+      "eval_samples_per_second": 6.566,
+      "eval_steps_per_second": 0.41,
+      "eval_wer": 0.8003562794248632,
       "step": 120
     },
+    {
+      "epoch": 0.5102040816326531,
+      "grad_norm": 12.8538236618042,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.7671,
+      "step": 150
+    },
+    {
+      "epoch": 0.5102040816326531,
+      "eval_cer": 0.2312352552609229,
+      "eval_loss": 1.6909141540527344,
+      "eval_runtime": 166.0118,
+      "eval_samples_per_second": 6.843,
+      "eval_steps_per_second": 0.428,
+      "eval_wer": 0.7619289986003308,
+      "step": 150
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 1594495.5,
+      "learning_rate": 6e-06,
+      "loss": 1.6285,
+      "step": 180
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "eval_cer": 0.22453524582428988,
+      "eval_loss": 1.5862839221954346,
+      "eval_runtime": 170.3953,
+      "eval_samples_per_second": 6.667,
+      "eval_steps_per_second": 0.417,
+      "eval_wer": 0.7335538872630105,
+      "step": 180
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "grad_norm": 13.195433616638184,
+      "learning_rate": 4.5e-06,
+      "loss": 1.5475,
+      "step": 210
+    },
+    {
+      "epoch": 0.7142857142857143,
+      "eval_cer": 0.2212512975370388,
+      "eval_loss": 1.525095820426941,
+      "eval_runtime": 176.0288,
+      "eval_samples_per_second": 6.453,
+      "eval_steps_per_second": 0.403,
+      "eval_wer": 0.7215930779997455,
+      "step": 210
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 11.149357795715332,
+      "learning_rate": 3e-06,
+      "loss": 1.4793,
+      "step": 240
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_cer": 0.20349155421345663,
+      "eval_loss": 1.4806641340255737,
+      "eval_runtime": 165.379,
+      "eval_samples_per_second": 6.869,
+      "eval_steps_per_second": 0.429,
+      "eval_wer": 0.6942359078763202,
+      "step": 240
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "grad_norm": 11.996837615966797,
+      "learning_rate": 1.5e-06,
+      "loss": 1.5013,
+      "step": 270
+    },
+    {
+      "epoch": 0.9183673469387755,
+      "eval_cer": 0.2057374728696801,
+      "eval_loss": 1.4582278728485107,
+      "eval_runtime": 171.0364,
+      "eval_samples_per_second": 6.642,
+      "eval_steps_per_second": 0.415,
+      "eval_wer": 0.6904186283242143,
+      "step": 270
+    },
     {
       "epoch": 1.0204081632653061,
+      "grad_norm": 13.957674980163574,
       "learning_rate": 0.0,
+      "loss": 1.4438,
+      "step": 300
     },
     {
       "epoch": 1.0204081632653061,
+      "eval_cer": 0.20496366896291404,
+      "eval_loss": 1.4505608081817627,
+      "eval_runtime": 170.7406,
+      "eval_samples_per_second": 6.653,
+      "eval_steps_per_second": 0.416,
+      "eval_wer": 0.6883827458964245,
+      "step": 300
     },
     {
       "epoch": 1.0204081632653061,
+      "step": 300,
       "total_flos": 2.3614434607104e+17,
+      "train_loss": 2.125396842956543,
+      "train_runtime": 3027.4927,
+      "train_samples_per_second": 3.171,
+      "train_steps_per_second": 0.099
     }
   ],
   "logging_steps": 30,
+  "max_steps": 300,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 30,
     }
   },
   "total_flos": 2.3614434607104e+17,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adb59dce1518b3dd6568a6cc562e4afcb56e424e6b498b28a4052dc7bfa10edd
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:32aa2deb8106dc2b84ec85669778f76eab69a5fb35be741e7625b0d96cfd6257
 size 5368