otozz commited on
Commit
5782859
·
verified ·
1 Parent(s): eb52ba4

Upload folder using huggingface_hub

Browse files
Files changed (4) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. trainer_state.json +251 -251
  4. training_args.bin +1 -1
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:93f4e85472794bbcbcfc4dec49c7df91327dc88187fe9bd08402d262a85f4793
3
  size 966995080
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef25ddaf7598f17b6beb19d6ca630262d89b17ed59abfc57d0b871488fb73f0f
3
  size 966995080
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:183a575b1c7bae52a385aaf65d40648fefbe2294ff323ee050506238661dfb4f
3
  size 1925064044
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:abd58696d97d207d78479ef8f176c8486c2fe5596b7147c40034c3af9d8861e3
3
  size 1925064044
trainer_state.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "best_metric": 81.30954374833746,
3
  "best_model_checkpoint": "/scratch/p310333/whisper-small-dialect_all_seed84/checkpoint-1750",
4
  "epoch": 0.3017137340091721,
5
  "eval_steps": 250,
@@ -10,802 +10,802 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.003017137340091721,
13
- "grad_norm": 65.5420150756836,
14
  "learning_rate": 5.000000000000001e-07,
15
  "loss": 4.9187,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.006034274680183442,
20
- "grad_norm": 30.61561393737793,
21
  "learning_rate": 1.0000000000000002e-06,
22
  "loss": 4.0023,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.009051412020275163,
27
- "grad_norm": 29.28253173828125,
28
  "learning_rate": 1.5e-06,
29
  "loss": 3.4756,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.012068549360366883,
34
- "grad_norm": 28.802133560180664,
35
  "learning_rate": 2.0000000000000003e-06,
36
  "loss": 2.7255,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.015085686700458605,
41
- "grad_norm": 32.795570373535156,
42
  "learning_rate": 2.5e-06,
43
  "loss": 2.4196,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.018102824040550327,
48
- "grad_norm": 23.08877182006836,
49
  "learning_rate": 3e-06,
50
  "loss": 2.2985,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.021119961380642045,
55
- "grad_norm": 26.61231231689453,
56
  "learning_rate": 3.5e-06,
57
- "loss": 2.3416,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.024137098720733767,
62
- "grad_norm": 19.47349739074707,
63
  "learning_rate": 4.000000000000001e-06,
64
- "loss": 2.1088,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.02715423606082549,
69
- "grad_norm": 33.220603942871094,
70
  "learning_rate": 4.5e-06,
71
  "loss": 2.0878,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.03017137340091721,
76
- "grad_norm": 27.01511001586914,
77
  "learning_rate": 5e-06,
78
- "loss": 2.1127,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.03017137340091721,
83
- "eval_cer": 75.04073104686333,
84
- "eval_loss": 1.908042073249817,
85
- "eval_runtime": 5452.7397,
86
- "eval_samples_per_second": 3.039,
87
- "eval_steps_per_second": 0.38,
88
- "eval_wer": 89.40503049231042,
89
  "step": 250
90
  },
91
  {
92
  "epoch": 0.03318851074100893,
93
- "grad_norm": 24.661699295043945,
94
  "learning_rate": 5.500000000000001e-06,
95
- "loss": 1.8497,
96
  "step": 275
97
  },
98
  {
99
  "epoch": 0.036205648081100654,
100
- "grad_norm": 24.292240142822266,
101
  "learning_rate": 6e-06,
102
- "loss": 1.8874,
103
  "step": 300
104
  },
105
  {
106
  "epoch": 0.039222785421192376,
107
- "grad_norm": 28.39283561706543,
108
  "learning_rate": 6.5000000000000004e-06,
109
- "loss": 1.7338,
110
  "step": 325
111
  },
112
  {
113
  "epoch": 0.04223992276128409,
114
- "grad_norm": 28.00855827331543,
115
  "learning_rate": 7e-06,
116
  "loss": 1.6565,
117
  "step": 350
118
  },
119
  {
120
  "epoch": 0.04525706010137581,
121
- "grad_norm": 29.236988067626953,
122
  "learning_rate": 7.500000000000001e-06,
123
- "loss": 1.471,
124
  "step": 375
125
  },
126
  {
127
  "epoch": 0.048274197441467534,
128
- "grad_norm": 21.41299057006836,
129
  "learning_rate": 8.000000000000001e-06,
130
- "loss": 1.377,
131
  "step": 400
132
  },
133
  {
134
  "epoch": 0.051291334781559256,
135
- "grad_norm": 25.506296157836914,
136
  "learning_rate": 8.5e-06,
137
- "loss": 1.3921,
138
  "step": 425
139
  },
140
  {
141
  "epoch": 0.05430847212165098,
142
- "grad_norm": 29.994136810302734,
143
  "learning_rate": 9e-06,
144
- "loss": 1.4203,
145
  "step": 450
146
  },
147
  {
148
  "epoch": 0.0573256094617427,
149
- "grad_norm": 30.166982650756836,
150
  "learning_rate": 9.5e-06,
151
- "loss": 1.4172,
152
  "step": 475
153
  },
154
  {
155
  "epoch": 0.06034274680183442,
156
- "grad_norm": 26.911828994750977,
157
  "learning_rate": 1e-05,
158
- "loss": 1.409,
159
  "step": 500
160
  },
161
  {
162
  "epoch": 0.06034274680183442,
163
- "eval_cer": 63.28322408864283,
164
- "eval_loss": 1.46658456325531,
165
- "eval_runtime": 3790.6529,
166
- "eval_samples_per_second": 4.372,
167
- "eval_steps_per_second": 0.547,
168
- "eval_wer": 91.1192993172481,
169
  "step": 500
170
  },
171
  {
172
  "epoch": 0.06335988414192614,
173
- "grad_norm": 29.040372848510742,
174
  "learning_rate": 9.944444444444445e-06,
175
- "loss": 1.5303,
176
  "step": 525
177
  },
178
  {
179
  "epoch": 0.06637702148201786,
180
- "grad_norm": 24.52021598815918,
181
  "learning_rate": 9.88888888888889e-06,
182
- "loss": 1.3872,
183
  "step": 550
184
  },
185
  {
186
  "epoch": 0.06939415882210959,
187
- "grad_norm": 23.997676849365234,
188
  "learning_rate": 9.833333333333333e-06,
189
- "loss": 1.3784,
190
  "step": 575
191
  },
192
  {
193
  "epoch": 0.07241129616220131,
194
- "grad_norm": 22.321500778198242,
195
  "learning_rate": 9.777777777777779e-06,
196
- "loss": 1.5472,
197
  "step": 600
198
  },
199
  {
200
  "epoch": 0.07542843350229303,
201
- "grad_norm": 24.63616943359375,
202
  "learning_rate": 9.722222222222223e-06,
203
- "loss": 1.337,
204
  "step": 625
205
  },
206
  {
207
  "epoch": 0.07844557084238475,
208
- "grad_norm": 26.10930824279785,
209
  "learning_rate": 9.666666666666667e-06,
210
- "loss": 1.4113,
211
  "step": 650
212
  },
213
  {
214
  "epoch": 0.08146270818247647,
215
- "grad_norm": 24.377735137939453,
216
  "learning_rate": 9.611111111111112e-06,
217
- "loss": 1.4169,
218
  "step": 675
219
  },
220
  {
221
  "epoch": 0.08447984552256818,
222
- "grad_norm": 28.207748413085938,
223
  "learning_rate": 9.555555555555556e-06,
224
- "loss": 1.4385,
225
  "step": 700
226
  },
227
  {
228
  "epoch": 0.0874969828626599,
229
- "grad_norm": 22.47800636291504,
230
  "learning_rate": 9.5e-06,
231
- "loss": 1.4014,
232
  "step": 725
233
  },
234
  {
235
  "epoch": 0.09051412020275162,
236
- "grad_norm": 23.965164184570312,
237
  "learning_rate": 9.444444444444445e-06,
238
- "loss": 1.4844,
239
  "step": 750
240
  },
241
  {
242
  "epoch": 0.09051412020275162,
243
- "eval_cer": 61.70583887099572,
244
- "eval_loss": 1.4198288917541504,
245
- "eval_runtime": 3756.7708,
246
- "eval_samples_per_second": 4.411,
247
- "eval_steps_per_second": 0.552,
248
- "eval_wer": 89.3991192205003,
249
  "step": 750
250
  },
251
  {
252
  "epoch": 0.09353125754284335,
253
- "grad_norm": 21.481678009033203,
254
  "learning_rate": 9.38888888888889e-06,
255
- "loss": 1.3299,
256
  "step": 775
257
  },
258
  {
259
  "epoch": 0.09654839488293507,
260
- "grad_norm": 18.25922393798828,
261
  "learning_rate": 9.333333333333334e-06,
262
- "loss": 1.382,
263
  "step": 800
264
  },
265
  {
266
  "epoch": 0.09956553222302679,
267
- "grad_norm": 23.341800689697266,
268
  "learning_rate": 9.277777777777778e-06,
269
- "loss": 1.5862,
270
  "step": 825
271
  },
272
  {
273
  "epoch": 0.10258266956311851,
274
- "grad_norm": 21.80385971069336,
275
  "learning_rate": 9.222222222222224e-06,
276
- "loss": 1.3633,
277
  "step": 850
278
  },
279
  {
280
  "epoch": 0.10559980690321023,
281
- "grad_norm": 21.196138381958008,
282
  "learning_rate": 9.166666666666666e-06,
283
- "loss": 1.373,
284
  "step": 875
285
  },
286
  {
287
  "epoch": 0.10861694424330195,
288
- "grad_norm": 26.68990135192871,
289
  "learning_rate": 9.111111111111112e-06,
290
- "loss": 1.4125,
291
  "step": 900
292
  },
293
  {
294
  "epoch": 0.11163408158339368,
295
- "grad_norm": 25.68580436706543,
296
  "learning_rate": 9.055555555555556e-06,
297
- "loss": 1.3544,
298
  "step": 925
299
  },
300
  {
301
  "epoch": 0.1146512189234854,
302
- "grad_norm": 21.313331604003906,
303
  "learning_rate": 9e-06,
304
- "loss": 1.3692,
305
  "step": 950
306
  },
307
  {
308
  "epoch": 0.11766835626357712,
309
- "grad_norm": 26.997135162353516,
310
  "learning_rate": 8.944444444444446e-06,
311
- "loss": 1.4534,
312
  "step": 975
313
  },
314
  {
315
  "epoch": 0.12068549360366884,
316
- "grad_norm": 26.953454971313477,
317
  "learning_rate": 8.888888888888888e-06,
318
- "loss": 1.4644,
319
  "step": 1000
320
  },
321
  {
322
  "epoch": 0.12068549360366884,
323
- "eval_cer": 61.789563800659245,
324
- "eval_loss": 1.3863773345947266,
325
- "eval_runtime": 3890.4048,
326
- "eval_samples_per_second": 4.26,
327
- "eval_steps_per_second": 0.533,
328
- "eval_wer": 90.75083004108335,
329
  "step": 1000
330
  },
331
  {
332
  "epoch": 0.12370263094376056,
333
- "grad_norm": 24.120258331298828,
334
  "learning_rate": 8.833333333333334e-06,
335
- "loss": 1.4748,
336
  "step": 1025
337
  },
338
  {
339
  "epoch": 0.12671976828385229,
340
- "grad_norm": 26.698230743408203,
341
  "learning_rate": 8.777777777777778e-06,
342
- "loss": 1.4389,
343
  "step": 1050
344
  },
345
  {
346
  "epoch": 0.129736905623944,
347
- "grad_norm": 31.574880599975586,
348
  "learning_rate": 8.722222222222224e-06,
349
- "loss": 1.3504,
350
  "step": 1075
351
  },
352
  {
353
  "epoch": 0.13275404296403573,
354
- "grad_norm": 23.17409324645996,
355
  "learning_rate": 8.666666666666668e-06,
356
- "loss": 1.3387,
357
  "step": 1100
358
  },
359
  {
360
  "epoch": 0.13577118030412744,
361
- "grad_norm": 27.488399505615234,
362
  "learning_rate": 8.611111111111112e-06,
363
- "loss": 1.4531,
364
  "step": 1125
365
  },
366
  {
367
  "epoch": 0.13878831764421917,
368
- "grad_norm": 20.899181365966797,
369
  "learning_rate": 8.555555555555556e-06,
370
  "loss": 1.3062,
371
  "step": 1150
372
  },
373
  {
374
  "epoch": 0.14180545498431088,
375
- "grad_norm": 26.456336975097656,
376
  "learning_rate": 8.5e-06,
377
- "loss": 1.399,
378
  "step": 1175
379
  },
380
  {
381
  "epoch": 0.14482259232440262,
382
- "grad_norm": 18.58867645263672,
383
  "learning_rate": 8.444444444444446e-06,
384
  "loss": 1.2873,
385
  "step": 1200
386
  },
387
  {
388
  "epoch": 0.14783972966449432,
389
- "grad_norm": 23.831193923950195,
390
  "learning_rate": 8.38888888888889e-06,
391
- "loss": 1.3038,
392
  "step": 1225
393
  },
394
  {
395
  "epoch": 0.15085686700458606,
396
- "grad_norm": 27.28873634338379,
397
  "learning_rate": 8.333333333333334e-06,
398
- "loss": 1.386,
399
  "step": 1250
400
  },
401
  {
402
  "epoch": 0.15085686700458606,
403
- "eval_cer": 66.82154521523341,
404
- "eval_loss": 1.3677594661712646,
405
- "eval_runtime": 4861.047,
406
- "eval_samples_per_second": 3.409,
407
- "eval_steps_per_second": 0.426,
408
- "eval_wer": 93.2207564457493,
409
  "step": 1250
410
  },
411
  {
412
  "epoch": 0.15387400434467777,
413
- "grad_norm": 24.41499137878418,
414
  "learning_rate": 8.277777777777778e-06,
415
- "loss": 1.4668,
416
  "step": 1275
417
  },
418
  {
419
  "epoch": 0.1568911416847695,
420
- "grad_norm": 22.846540451049805,
421
  "learning_rate": 8.222222222222222e-06,
422
- "loss": 1.4219,
423
  "step": 1300
424
  },
425
  {
426
  "epoch": 0.1599082790248612,
427
- "grad_norm": 23.818105697631836,
428
  "learning_rate": 8.166666666666668e-06,
429
- "loss": 1.2927,
430
  "step": 1325
431
  },
432
  {
433
  "epoch": 0.16292541636495295,
434
- "grad_norm": 22.695980072021484,
435
  "learning_rate": 8.111111111111112e-06,
436
- "loss": 1.3731,
437
  "step": 1350
438
  },
439
  {
440
  "epoch": 0.16594255370504465,
441
- "grad_norm": 26.142614364624023,
442
  "learning_rate": 8.055555555555557e-06,
443
- "loss": 1.3787,
444
  "step": 1375
445
  },
446
  {
447
  "epoch": 0.16895969104513636,
448
- "grad_norm": 17.853261947631836,
449
  "learning_rate": 8.000000000000001e-06,
450
- "loss": 1.3649,
451
  "step": 1400
452
  },
453
  {
454
  "epoch": 0.1719768283852281,
455
- "grad_norm": 23.05394172668457,
456
  "learning_rate": 7.944444444444445e-06,
457
- "loss": 1.3517,
458
  "step": 1425
459
  },
460
  {
461
  "epoch": 0.1749939657253198,
462
- "grad_norm": 20.292495727539062,
463
  "learning_rate": 7.88888888888889e-06,
464
- "loss": 1.3752,
465
  "step": 1450
466
  },
467
  {
468
  "epoch": 0.17801110306541154,
469
- "grad_norm": 19.236572265625,
470
  "learning_rate": 7.833333333333333e-06,
471
- "loss": 1.2467,
472
  "step": 1475
473
  },
474
  {
475
  "epoch": 0.18102824040550325,
476
- "grad_norm": 23.87392807006836,
477
  "learning_rate": 7.77777777777778e-06,
478
- "loss": 1.3727,
479
  "step": 1500
480
  },
481
  {
482
  "epoch": 0.18102824040550325,
483
- "eval_cer": 58.00949636814832,
484
- "eval_loss": 1.350059151649475,
485
- "eval_runtime": 3818.8115,
486
- "eval_samples_per_second": 4.34,
487
- "eval_steps_per_second": 0.543,
488
- "eval_wer": 83.93020758416174,
489
  "step": 1500
490
  },
491
  {
492
  "epoch": 0.18404537774559498,
493
- "grad_norm": 22.543930053710938,
494
  "learning_rate": 7.722222222222223e-06,
495
- "loss": 1.2917,
496
  "step": 1525
497
  },
498
  {
499
  "epoch": 0.1870625150856867,
500
- "grad_norm": 22.561914443969727,
501
  "learning_rate": 7.666666666666667e-06,
502
- "loss": 1.2996,
503
  "step": 1550
504
  },
505
  {
506
  "epoch": 0.19007965242577843,
507
- "grad_norm": 26.33420753479004,
508
  "learning_rate": 7.611111111111111e-06,
509
- "loss": 1.3633,
510
  "step": 1575
511
  },
512
  {
513
  "epoch": 0.19309678976587014,
514
- "grad_norm": 20.257822036743164,
515
  "learning_rate": 7.555555555555556e-06,
516
- "loss": 1.2725,
517
  "step": 1600
518
  },
519
  {
520
  "epoch": 0.19611392710596187,
521
- "grad_norm": 22.469804763793945,
522
  "learning_rate": 7.500000000000001e-06,
523
- "loss": 1.4868,
524
  "step": 1625
525
  },
526
  {
527
  "epoch": 0.19913106444605358,
528
- "grad_norm": 23.334760665893555,
529
  "learning_rate": 7.444444444444445e-06,
530
- "loss": 1.2444,
531
  "step": 1650
532
  },
533
  {
534
  "epoch": 0.20214820178614532,
535
- "grad_norm": 23.603315353393555,
536
  "learning_rate": 7.38888888888889e-06,
537
- "loss": 1.359,
538
  "step": 1675
539
  },
540
  {
541
  "epoch": 0.20516533912623702,
542
- "grad_norm": 19.353214263916016,
543
  "learning_rate": 7.333333333333333e-06,
544
- "loss": 1.288,
545
  "step": 1700
546
  },
547
  {
548
  "epoch": 0.20818247646632876,
549
- "grad_norm": 25.300758361816406,
550
  "learning_rate": 7.277777777777778e-06,
551
- "loss": 1.3908,
552
  "step": 1725
553
  },
554
  {
555
  "epoch": 0.21119961380642047,
556
- "grad_norm": 21.219324111938477,
557
  "learning_rate": 7.222222222222223e-06,
558
- "loss": 1.3078,
559
  "step": 1750
560
  },
561
  {
562
  "epoch": 0.21119961380642047,
563
- "eval_cer": 59.00212706578064,
564
- "eval_loss": 1.3268232345581055,
565
- "eval_runtime": 4148.3039,
566
- "eval_samples_per_second": 3.995,
567
- "eval_steps_per_second": 0.499,
568
- "eval_wer": 81.30954374833746,
569
  "step": 1750
570
  },
571
  {
572
  "epoch": 0.2142167511465122,
573
- "grad_norm": 23.480670928955078,
574
  "learning_rate": 7.166666666666667e-06,
575
- "loss": 1.32,
576
  "step": 1775
577
  },
578
  {
579
  "epoch": 0.2172338884866039,
580
- "grad_norm": 25.72469139099121,
581
  "learning_rate": 7.111111111111112e-06,
582
- "loss": 1.2747,
583
  "step": 1800
584
  },
585
  {
586
  "epoch": 0.22025102582669562,
587
- "grad_norm": 16.877225875854492,
588
  "learning_rate": 7.055555555555557e-06,
589
- "loss": 1.2142,
590
  "step": 1825
591
  },
592
  {
593
  "epoch": 0.22326816316678735,
594
- "grad_norm": 22.20556640625,
595
  "learning_rate": 7e-06,
596
- "loss": 1.2684,
597
  "step": 1850
598
  },
599
  {
600
  "epoch": 0.22628530050687906,
601
- "grad_norm": 15.339997291564941,
602
  "learning_rate": 6.944444444444445e-06,
603
- "loss": 1.2484,
604
  "step": 1875
605
  },
606
  {
607
  "epoch": 0.2293024378469708,
608
- "grad_norm": 20.877666473388672,
609
  "learning_rate": 6.88888888888889e-06,
610
- "loss": 1.2099,
611
  "step": 1900
612
  },
613
  {
614
  "epoch": 0.2323195751870625,
615
- "grad_norm": 28.011430740356445,
616
  "learning_rate": 6.833333333333334e-06,
617
- "loss": 1.2802,
618
  "step": 1925
619
  },
620
  {
621
  "epoch": 0.23533671252715424,
622
- "grad_norm": 22.03005027770996,
623
  "learning_rate": 6.777777777777779e-06,
624
- "loss": 1.2924,
625
  "step": 1950
626
  },
627
  {
628
  "epoch": 0.23835384986724595,
629
- "grad_norm": 22.320819854736328,
630
  "learning_rate": 6.7222222222222235e-06,
631
- "loss": 1.2741,
632
  "step": 1975
633
  },
634
  {
635
  "epoch": 0.24137098720733768,
636
- "grad_norm": 20.871091842651367,
637
  "learning_rate": 6.666666666666667e-06,
638
- "loss": 1.2995,
639
  "step": 2000
640
  },
641
  {
642
  "epoch": 0.24137098720733768,
643
- "eval_cer": 59.07340639779147,
644
- "eval_loss": 1.3121392726898193,
645
- "eval_runtime": 4204.9822,
646
- "eval_samples_per_second": 3.941,
647
- "eval_steps_per_second": 0.493,
648
- "eval_wer": 86.45432064708723,
649
  "step": 2000
650
  },
651
  {
652
  "epoch": 0.2443881245474294,
653
- "grad_norm": 23.991544723510742,
654
  "learning_rate": 6.6111111111111115e-06,
655
- "loss": 1.3492,
656
  "step": 2025
657
  },
658
  {
659
  "epoch": 0.24740526188752113,
660
- "grad_norm": 22.863008499145508,
661
  "learning_rate": 6.555555555555556e-06,
662
- "loss": 1.308,
663
  "step": 2050
664
  },
665
  {
666
  "epoch": 0.25042239922761284,
667
- "grad_norm": 17.017812728881836,
668
  "learning_rate": 6.5000000000000004e-06,
669
- "loss": 1.2589,
670
  "step": 2075
671
  },
672
  {
673
  "epoch": 0.25343953656770457,
674
- "grad_norm": 18.99051284790039,
675
  "learning_rate": 6.444444444444445e-06,
676
- "loss": 1.2262,
677
  "step": 2100
678
  },
679
  {
680
  "epoch": 0.2564566739077963,
681
- "grad_norm": 24.77310562133789,
682
  "learning_rate": 6.3888888888888885e-06,
683
- "loss": 1.2641,
684
  "step": 2125
685
  },
686
  {
687
  "epoch": 0.259473811247888,
688
- "grad_norm": 25.287763595581055,
689
  "learning_rate": 6.333333333333333e-06,
690
- "loss": 1.2945,
691
  "step": 2150
692
  },
693
  {
694
  "epoch": 0.2624909485879797,
695
- "grad_norm": 25.328964233398438,
696
  "learning_rate": 6.277777777777778e-06,
697
- "loss": 1.4174,
698
  "step": 2175
699
  },
700
  {
701
  "epoch": 0.26550808592807146,
702
- "grad_norm": 21.193706512451172,
703
  "learning_rate": 6.222222222222223e-06,
704
- "loss": 1.3045,
705
  "step": 2200
706
  },
707
  {
708
  "epoch": 0.2685252232681632,
709
- "grad_norm": 25.26439094543457,
710
  "learning_rate": 6.166666666666667e-06,
711
- "loss": 1.2792,
712
  "step": 2225
713
  },
714
  {
715
  "epoch": 0.2715423606082549,
716
- "grad_norm": 18.658802032470703,
717
  "learning_rate": 6.111111111111112e-06,
718
- "loss": 1.3895,
719
  "step": 2250
720
  },
721
  {
722
  "epoch": 0.2715423606082549,
723
- "eval_cer": 69.0187589099165,
724
- "eval_loss": 1.296238660812378,
725
- "eval_runtime": 4556.544,
726
- "eval_samples_per_second": 3.637,
727
- "eval_steps_per_second": 0.455,
728
- "eval_wer": 94.42961153092088,
729
  "step": 2250
730
  },
731
  {
732
  "epoch": 0.2745594979483466,
733
- "grad_norm": 19.182533264160156,
734
  "learning_rate": 6.055555555555555e-06,
735
- "loss": 1.3048,
736
  "step": 2275
737
  },
738
  {
739
  "epoch": 0.27757663528843834,
740
- "grad_norm": 21.095041275024414,
741
  "learning_rate": 6e-06,
742
- "loss": 1.2783,
743
  "step": 2300
744
  },
745
  {
746
  "epoch": 0.28059377262853,
747
- "grad_norm": 18.291179656982422,
748
  "learning_rate": 5.944444444444445e-06,
749
- "loss": 1.2607,
750
  "step": 2325
751
  },
752
  {
753
  "epoch": 0.28361090996862176,
754
- "grad_norm": 16.70252227783203,
755
  "learning_rate": 5.88888888888889e-06,
756
- "loss": 1.2578,
757
  "step": 2350
758
  },
759
  {
760
  "epoch": 0.2866280473087135,
761
- "grad_norm": 27.941680908203125,
762
  "learning_rate": 5.833333333333334e-06,
763
- "loss": 1.3026,
764
  "step": 2375
765
  },
766
  {
767
  "epoch": 0.28964518464880523,
768
- "grad_norm": 26.314424514770508,
769
  "learning_rate": 5.777777777777778e-06,
770
- "loss": 1.2207,
771
  "step": 2400
772
  },
773
  {
774
  "epoch": 0.2926623219888969,
775
- "grad_norm": 23.71686553955078,
776
  "learning_rate": 5.722222222222222e-06,
777
- "loss": 1.2565,
778
  "step": 2425
779
  },
780
  {
781
  "epoch": 0.29567945932898865,
782
- "grad_norm": 24.66400909423828,
783
  "learning_rate": 5.666666666666667e-06,
784
- "loss": 1.3363,
785
  "step": 2450
786
  },
787
  {
788
  "epoch": 0.2986965966690804,
789
- "grad_norm": 24.745983123779297,
790
  "learning_rate": 5.611111111111112e-06,
791
- "loss": 1.2785,
792
  "step": 2475
793
  },
794
  {
795
  "epoch": 0.3017137340091721,
796
- "grad_norm": 23.765567779541016,
797
  "learning_rate": 5.555555555555557e-06,
798
- "loss": 1.3658,
799
  "step": 2500
800
  },
801
  {
802
  "epoch": 0.3017137340091721,
803
- "eval_cer": 60.034545961969265,
804
- "eval_loss": 1.2828303575515747,
805
- "eval_runtime": 4164.8499,
806
- "eval_samples_per_second": 3.979,
807
- "eval_steps_per_second": 0.497,
808
- "eval_wer": 84.99325129801677,
809
  "step": 2500
810
  }
811
  ],
 
1
  {
2
+ "best_metric": 81.65732357316676,
3
  "best_model_checkpoint": "/scratch/p310333/whisper-small-dialect_all_seed84/checkpoint-1750",
4
  "epoch": 0.3017137340091721,
5
  "eval_steps": 250,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.003017137340091721,
13
+ "grad_norm": 65.54208374023438,
14
  "learning_rate": 5.000000000000001e-07,
15
  "loss": 4.9187,
16
  "step": 25
17
  },
18
  {
19
  "epoch": 0.006034274680183442,
20
+ "grad_norm": 30.615581512451172,
21
  "learning_rate": 1.0000000000000002e-06,
22
  "loss": 4.0023,
23
  "step": 50
24
  },
25
  {
26
  "epoch": 0.009051412020275163,
27
+ "grad_norm": 29.282546997070312,
28
  "learning_rate": 1.5e-06,
29
  "loss": 3.4756,
30
  "step": 75
31
  },
32
  {
33
  "epoch": 0.012068549360366883,
34
+ "grad_norm": 28.80223846435547,
35
  "learning_rate": 2.0000000000000003e-06,
36
  "loss": 2.7255,
37
  "step": 100
38
  },
39
  {
40
  "epoch": 0.015085686700458605,
41
+ "grad_norm": 32.79741287231445,
42
  "learning_rate": 2.5e-06,
43
  "loss": 2.4196,
44
  "step": 125
45
  },
46
  {
47
  "epoch": 0.018102824040550327,
48
+ "grad_norm": 23.08782196044922,
49
  "learning_rate": 3e-06,
50
  "loss": 2.2985,
51
  "step": 150
52
  },
53
  {
54
  "epoch": 0.021119961380642045,
55
+ "grad_norm": 26.61124610900879,
56
  "learning_rate": 3.5e-06,
57
+ "loss": 2.3417,
58
  "step": 175
59
  },
60
  {
61
  "epoch": 0.024137098720733767,
62
+ "grad_norm": 19.468734741210938,
63
  "learning_rate": 4.000000000000001e-06,
64
+ "loss": 2.1087,
65
  "step": 200
66
  },
67
  {
68
  "epoch": 0.02715423606082549,
69
+ "grad_norm": 33.279293060302734,
70
  "learning_rate": 4.5e-06,
71
  "loss": 2.0878,
72
  "step": 225
73
  },
74
  {
75
  "epoch": 0.03017137340091721,
76
+ "grad_norm": 27.024686813354492,
77
  "learning_rate": 5e-06,
78
+ "loss": 2.1126,
79
  "step": 250
80
  },
81
  {
82
  "epoch": 0.03017137340091721,
83
+ "eval_cer": 75.39939054285433,
84
+ "eval_loss": 1.9080588817596436,
85
+ "eval_runtime": 4890.5649,
86
+ "eval_samples_per_second": 3.389,
87
+ "eval_steps_per_second": 0.424,
88
+ "eval_wer": 89.64246657668397,
89
  "step": 250
90
  },
91
  {
92
  "epoch": 0.03318851074100893,
93
+ "grad_norm": 24.560420989990234,
94
  "learning_rate": 5.500000000000001e-06,
95
+ "loss": 1.8494,
96
  "step": 275
97
  },
98
  {
99
  "epoch": 0.036205648081100654,
100
+ "grad_norm": 24.324853897094727,
101
  "learning_rate": 6e-06,
102
+ "loss": 1.8878,
103
  "step": 300
104
  },
105
  {
106
  "epoch": 0.039222785421192376,
107
+ "grad_norm": 28.385276794433594,
108
  "learning_rate": 6.5000000000000004e-06,
109
+ "loss": 1.7333,
110
  "step": 325
111
  },
112
  {
113
  "epoch": 0.04223992276128409,
114
+ "grad_norm": 27.999126434326172,
115
  "learning_rate": 7e-06,
116
  "loss": 1.6565,
117
  "step": 350
118
  },
119
  {
120
  "epoch": 0.04525706010137581,
121
+ "grad_norm": 29.16621208190918,
122
  "learning_rate": 7.500000000000001e-06,
123
+ "loss": 1.4705,
124
  "step": 375
125
  },
126
  {
127
  "epoch": 0.048274197441467534,
128
+ "grad_norm": 21.424270629882812,
129
  "learning_rate": 8.000000000000001e-06,
130
+ "loss": 1.3766,
131
  "step": 400
132
  },
133
  {
134
  "epoch": 0.051291334781559256,
135
+ "grad_norm": 25.499229431152344,
136
  "learning_rate": 8.5e-06,
137
+ "loss": 1.3916,
138
  "step": 425
139
  },
140
  {
141
  "epoch": 0.05430847212165098,
142
+ "grad_norm": 30.007627487182617,
143
  "learning_rate": 9e-06,
144
+ "loss": 1.4213,
145
  "step": 450
146
  },
147
  {
148
  "epoch": 0.0573256094617427,
149
+ "grad_norm": 30.537519454956055,
150
  "learning_rate": 9.5e-06,
151
+ "loss": 1.417,
152
  "step": 475
153
  },
154
  {
155
  "epoch": 0.06034274680183442,
156
+ "grad_norm": 26.885221481323242,
157
  "learning_rate": 1e-05,
158
+ "loss": 1.4094,
159
  "step": 500
160
  },
161
  {
162
  "epoch": 0.06034274680183442,
163
+ "eval_cer": 63.82253332025917,
164
+ "eval_loss": 1.4668316841125488,
165
+ "eval_runtime": 4839.8999,
166
+ "eval_samples_per_second": 3.424,
167
+ "eval_steps_per_second": 0.428,
168
+ "eval_wer": 91.40993684791283,
169
  "step": 500
170
  },
171
  {
172
  "epoch": 0.06335988414192614,
173
+ "grad_norm": 28.894699096679688,
174
  "learning_rate": 9.944444444444445e-06,
175
+ "loss": 1.5314,
176
  "step": 525
177
  },
178
  {
179
  "epoch": 0.06637702148201786,
180
+ "grad_norm": 24.584243774414062,
181
  "learning_rate": 9.88888888888889e-06,
182
+ "loss": 1.3876,
183
  "step": 550
184
  },
185
  {
186
  "epoch": 0.06939415882210959,
187
+ "grad_norm": 23.92827033996582,
188
  "learning_rate": 9.833333333333333e-06,
189
+ "loss": 1.3787,
190
  "step": 575
191
  },
192
  {
193
  "epoch": 0.07241129616220131,
194
+ "grad_norm": 22.209672927856445,
195
  "learning_rate": 9.777777777777779e-06,
196
+ "loss": 1.5477,
197
  "step": 600
198
  },
199
  {
200
  "epoch": 0.07542843350229303,
201
+ "grad_norm": 24.50571632385254,
202
  "learning_rate": 9.722222222222223e-06,
203
+ "loss": 1.3358,
204
  "step": 625
205
  },
206
  {
207
  "epoch": 0.07844557084238475,
208
+ "grad_norm": 25.96898078918457,
209
  "learning_rate": 9.666666666666667e-06,
210
+ "loss": 1.4117,
211
  "step": 650
212
  },
213
  {
214
  "epoch": 0.08146270818247647,
215
+ "grad_norm": 24.520370483398438,
216
  "learning_rate": 9.611111111111112e-06,
217
+ "loss": 1.4163,
218
  "step": 675
219
  },
220
  {
221
  "epoch": 0.08447984552256818,
222
+ "grad_norm": 28.337772369384766,
223
  "learning_rate": 9.555555555555556e-06,
224
+ "loss": 1.4381,
225
  "step": 700
226
  },
227
  {
228
  "epoch": 0.0874969828626599,
229
+ "grad_norm": 22.536033630371094,
230
  "learning_rate": 9.5e-06,
231
+ "loss": 1.4022,
232
  "step": 725
233
  },
234
  {
235
  "epoch": 0.09051412020275162,
236
+ "grad_norm": 23.963077545166016,
237
  "learning_rate": 9.444444444444445e-06,
238
+ "loss": 1.4845,
239
  "step": 750
240
  },
241
  {
242
  "epoch": 0.09051412020275162,
243
+ "eval_cer": 61.253460253286775,
244
+ "eval_loss": 1.4192742109298706,
245
+ "eval_runtime": 4048.8139,
246
+ "eval_samples_per_second": 4.093,
247
+ "eval_steps_per_second": 0.512,
248
+ "eval_wer": 89.38631146491167,
249
  "step": 750
250
  },
251
  {
252
  "epoch": 0.09353125754284335,
253
+ "grad_norm": 21.442434310913086,
254
  "learning_rate": 9.38888888888889e-06,
255
+ "loss": 1.3301,
256
  "step": 775
257
  },
258
  {
259
  "epoch": 0.09654839488293507,
260
+ "grad_norm": 18.17827606201172,
261
  "learning_rate": 9.333333333333334e-06,
262
+ "loss": 1.3823,
263
  "step": 800
264
  },
265
  {
266
  "epoch": 0.09956553222302679,
267
+ "grad_norm": 23.526996612548828,
268
  "learning_rate": 9.277777777777778e-06,
269
+ "loss": 1.5849,
270
  "step": 825
271
  },
272
  {
273
  "epoch": 0.10258266956311851,
274
+ "grad_norm": 21.815263748168945,
275
  "learning_rate": 9.222222222222224e-06,
276
+ "loss": 1.3643,
277
  "step": 850
278
  },
279
  {
280
  "epoch": 0.10559980690321023,
281
+ "grad_norm": 21.027591705322266,
282
  "learning_rate": 9.166666666666666e-06,
283
+ "loss": 1.3723,
284
  "step": 875
285
  },
286
  {
287
  "epoch": 0.10861694424330195,
288
+ "grad_norm": 26.622665405273438,
289
  "learning_rate": 9.111111111111112e-06,
290
+ "loss": 1.4118,
291
  "step": 900
292
  },
293
  {
294
  "epoch": 0.11163408158339368,
295
+ "grad_norm": 25.46664047241211,
296
  "learning_rate": 9.055555555555556e-06,
297
+ "loss": 1.3537,
298
  "step": 925
299
  },
300
  {
301
  "epoch": 0.1146512189234854,
302
+ "grad_norm": 21.33067512512207,
303
  "learning_rate": 9e-06,
304
+ "loss": 1.3697,
305
  "step": 950
306
  },
307
  {
308
  "epoch": 0.11766835626357712,
309
+ "grad_norm": 27.155698776245117,
310
  "learning_rate": 8.944444444444446e-06,
311
+ "loss": 1.4537,
312
  "step": 975
313
  },
314
  {
315
  "epoch": 0.12068549360366884,
316
+ "grad_norm": 27.02322769165039,
317
  "learning_rate": 8.888888888888888e-06,
318
+ "loss": 1.4639,
319
  "step": 1000
320
  },
321
  {
322
  "epoch": 0.12068549360366884,
323
+ "eval_cer": 62.40448946649872,
324
+ "eval_loss": 1.3861624002456665,
325
+ "eval_runtime": 6536.9994,
326
+ "eval_samples_per_second": 2.535,
327
+ "eval_steps_per_second": 0.317,
328
+ "eval_wer": 91.8197850267485,
329
  "step": 1000
330
  },
331
  {
332
  "epoch": 0.12370263094376056,
333
+ "grad_norm": 24.13388442993164,
334
  "learning_rate": 8.833333333333334e-06,
335
+ "loss": 1.4738,
336
  "step": 1025
337
  },
338
  {
339
  "epoch": 0.12671976828385229,
340
+ "grad_norm": 26.072269439697266,
341
  "learning_rate": 8.777777777777778e-06,
342
+ "loss": 1.4402,
343
  "step": 1050
344
  },
345
  {
346
  "epoch": 0.129736905623944,
347
+ "grad_norm": 31.587852478027344,
348
  "learning_rate": 8.722222222222224e-06,
349
+ "loss": 1.3485,
350
  "step": 1075
351
  },
352
  {
353
  "epoch": 0.13275404296403573,
354
+ "grad_norm": 23.130081176757812,
355
  "learning_rate": 8.666666666666668e-06,
356
+ "loss": 1.3384,
357
  "step": 1100
358
  },
359
  {
360
  "epoch": 0.13577118030412744,
361
+ "grad_norm": 27.463407516479492,
362
  "learning_rate": 8.611111111111112e-06,
363
+ "loss": 1.4537,
364
  "step": 1125
365
  },
366
  {
367
  "epoch": 0.13878831764421917,
368
+ "grad_norm": 20.881338119506836,
369
  "learning_rate": 8.555555555555556e-06,
370
  "loss": 1.3062,
371
  "step": 1150
372
  },
373
  {
374
  "epoch": 0.14180545498431088,
375
+ "grad_norm": 26.432994842529297,
376
  "learning_rate": 8.5e-06,
377
+ "loss": 1.3982,
378
  "step": 1175
379
  },
380
  {
381
  "epoch": 0.14482259232440262,
382
+ "grad_norm": 18.55461311340332,
383
  "learning_rate": 8.444444444444446e-06,
384
  "loss": 1.2873,
385
  "step": 1200
386
  },
387
  {
388
  "epoch": 0.14783972966449432,
389
+ "grad_norm": 23.862037658691406,
390
  "learning_rate": 8.38888888888889e-06,
391
+ "loss": 1.3043,
392
  "step": 1225
393
  },
394
  {
395
  "epoch": 0.15085686700458606,
396
+ "grad_norm": 27.1133975982666,
397
  "learning_rate": 8.333333333333334e-06,
398
+ "loss": 1.3855,
399
  "step": 1250
400
  },
401
  {
402
  "epoch": 0.15085686700458606,
403
+ "eval_cer": 66.67634657595208,
404
+ "eval_loss": 1.367380976676941,
405
+ "eval_runtime": 5424.8274,
406
+ "eval_samples_per_second": 3.055,
407
+ "eval_steps_per_second": 0.382,
408
+ "eval_wer": 93.20499305425562,
409
  "step": 1250
410
  },
411
  {
412
  "epoch": 0.15387400434467777,
413
+ "grad_norm": 24.38422393798828,
414
  "learning_rate": 8.277777777777778e-06,
415
+ "loss": 1.4679,
416
  "step": 1275
417
  },
418
  {
419
  "epoch": 0.1568911416847695,
420
+ "grad_norm": 23.12870216369629,
421
  "learning_rate": 8.222222222222222e-06,
422
+ "loss": 1.4213,
423
  "step": 1300
424
  },
425
  {
426
  "epoch": 0.1599082790248612,
427
+ "grad_norm": 24.16248321533203,
428
  "learning_rate": 8.166666666666668e-06,
429
+ "loss": 1.2921,
430
  "step": 1325
431
  },
432
  {
433
  "epoch": 0.16292541636495295,
434
+ "grad_norm": 22.89928436279297,
435
  "learning_rate": 8.111111111111112e-06,
436
+ "loss": 1.3745,
437
  "step": 1350
438
  },
439
  {
440
  "epoch": 0.16594255370504465,
441
+ "grad_norm": 26.103015899658203,
442
  "learning_rate": 8.055555555555557e-06,
443
+ "loss": 1.3796,
444
  "step": 1375
445
  },
446
  {
447
  "epoch": 0.16895969104513636,
448
+ "grad_norm": 17.778417587280273,
449
  "learning_rate": 8.000000000000001e-06,
450
+ "loss": 1.3638,
451
  "step": 1400
452
  },
453
  {
454
  "epoch": 0.1719768283852281,
455
+ "grad_norm": 23.057931900024414,
456
  "learning_rate": 7.944444444444445e-06,
457
+ "loss": 1.3524,
458
  "step": 1425
459
  },
460
  {
461
  "epoch": 0.1749939657253198,
462
+ "grad_norm": 20.255752563476562,
463
  "learning_rate": 7.88888888888889e-06,
464
+ "loss": 1.3768,
465
  "step": 1450
466
  },
467
  {
468
  "epoch": 0.17801110306541154,
469
+ "grad_norm": 19.22992706298828,
470
  "learning_rate": 7.833333333333333e-06,
471
+ "loss": 1.247,
472
  "step": 1475
473
  },
474
  {
475
  "epoch": 0.18102824040550325,
476
+ "grad_norm": 23.74711036682129,
477
  "learning_rate": 7.77777777777778e-06,
478
+ "loss": 1.3741,
479
  "step": 1500
480
  },
481
  {
482
  "epoch": 0.18102824040550325,
483
+ "eval_cer": 58.32365342404792,
484
+ "eval_loss": 1.3499553203582764,
485
+ "eval_runtime": 4123.7168,
486
+ "eval_samples_per_second": 4.019,
487
+ "eval_steps_per_second": 0.502,
488
+ "eval_wer": 83.93414843203514,
489
  "step": 1500
490
  },
491
  {
492
  "epoch": 0.18404537774559498,
493
+ "grad_norm": 22.509279251098633,
494
  "learning_rate": 7.722222222222223e-06,
495
+ "loss": 1.2904,
496
  "step": 1525
497
  },
498
  {
499
  "epoch": 0.1870625150856867,
500
+ "grad_norm": 22.517881393432617,
501
  "learning_rate": 7.666666666666667e-06,
502
+ "loss": 1.3,
503
  "step": 1550
504
  },
505
  {
506
  "epoch": 0.19007965242577843,
507
+ "grad_norm": 26.30403709411621,
508
  "learning_rate": 7.611111111111111e-06,
509
+ "loss": 1.3627,
510
  "step": 1575
511
  },
512
  {
513
  "epoch": 0.19309678976587014,
514
+ "grad_norm": 20.28595542907715,
515
  "learning_rate": 7.555555555555556e-06,
516
+ "loss": 1.2716,
517
  "step": 1600
518
  },
519
  {
520
  "epoch": 0.19611392710596187,
521
+ "grad_norm": 22.23461151123047,
522
  "learning_rate": 7.500000000000001e-06,
523
+ "loss": 1.4848,
524
  "step": 1625
525
  },
526
  {
527
  "epoch": 0.19913106444605358,
528
+ "grad_norm": 23.31128692626953,
529
  "learning_rate": 7.444444444444445e-06,
530
+ "loss": 1.2453,
531
  "step": 1650
532
  },
533
  {
534
  "epoch": 0.20214820178614532,
535
+ "grad_norm": 23.57061004638672,
536
  "learning_rate": 7.38888888888889e-06,
537
+ "loss": 1.3575,
538
  "step": 1675
539
  },
540
  {
541
  "epoch": 0.20516533912623702,
542
+ "grad_norm": 19.259546279907227,
543
  "learning_rate": 7.333333333333333e-06,
544
+ "loss": 1.2894,
545
  "step": 1700
546
  },
547
  {
548
  "epoch": 0.20818247646632876,
549
+ "grad_norm": 25.171783447265625,
550
  "learning_rate": 7.277777777777778e-06,
551
+ "loss": 1.3894,
552
  "step": 1725
553
  },
554
  {
555
  "epoch": 0.21119961380642047,
556
+ "grad_norm": 21.088159561157227,
557
  "learning_rate": 7.222222222222223e-06,
558
+ "loss": 1.3073,
559
  "step": 1750
560
  },
561
  {
562
  "epoch": 0.21119961380642047,
563
+ "eval_cer": 58.877671089253795,
564
+ "eval_loss": 1.326649785041809,
565
+ "eval_runtime": 4478.8906,
566
+ "eval_samples_per_second": 3.7,
567
+ "eval_steps_per_second": 0.463,
568
+ "eval_wer": 81.65732357316676,
569
  "step": 1750
570
  },
571
  {
572
  "epoch": 0.2142167511465122,
573
+ "grad_norm": 23.551097869873047,
574
  "learning_rate": 7.166666666666667e-06,
575
+ "loss": 1.3203,
576
  "step": 1775
577
  },
578
  {
579
  "epoch": 0.2172338884866039,
580
+ "grad_norm": 25.782739639282227,
581
  "learning_rate": 7.111111111111112e-06,
582
+ "loss": 1.2752,
583
  "step": 1800
584
  },
585
  {
586
  "epoch": 0.22025102582669562,
587
+ "grad_norm": 16.879140853881836,
588
  "learning_rate": 7.055555555555557e-06,
589
+ "loss": 1.2145,
590
  "step": 1825
591
  },
592
  {
593
  "epoch": 0.22326816316678735,
594
+ "grad_norm": 22.139205932617188,
595
  "learning_rate": 7e-06,
596
+ "loss": 1.2678,
597
  "step": 1850
598
  },
599
  {
600
  "epoch": 0.22628530050687906,
601
+ "grad_norm": 15.391493797302246,
602
  "learning_rate": 6.944444444444445e-06,
603
+ "loss": 1.2468,
604
  "step": 1875
605
  },
606
  {
607
  "epoch": 0.2293024378469708,
608
+ "grad_norm": 20.986146926879883,
609
  "learning_rate": 6.88888888888889e-06,
610
+ "loss": 1.2093,
611
  "step": 1900
612
  },
613
  {
614
  "epoch": 0.2323195751870625,
615
+ "grad_norm": 27.949708938598633,
616
  "learning_rate": 6.833333333333334e-06,
617
+ "loss": 1.2795,
618
  "step": 1925
619
  },
620
  {
621
  "epoch": 0.23533671252715424,
622
+ "grad_norm": 21.94474220275879,
623
  "learning_rate": 6.777777777777779e-06,
624
+ "loss": 1.2931,
625
  "step": 1950
626
  },
627
  {
628
  "epoch": 0.23835384986724595,
629
+ "grad_norm": 22.343372344970703,
630
  "learning_rate": 6.7222222222222235e-06,
631
+ "loss": 1.2731,
632
  "step": 1975
633
  },
634
  {
635
  "epoch": 0.24137098720733768,
636
+ "grad_norm": 21.14777374267578,
637
  "learning_rate": 6.666666666666667e-06,
638
+ "loss": 1.2993,
639
  "step": 2000
640
  },
641
  {
642
  "epoch": 0.24137098720733768,
643
+ "eval_cer": 59.81580515474027,
644
+ "eval_loss": 1.3122555017471313,
645
+ "eval_runtime": 5034.5037,
646
+ "eval_samples_per_second": 3.292,
647
+ "eval_steps_per_second": 0.412,
648
+ "eval_wer": 87.38337553324598,
649
  "step": 2000
650
  },
651
  {
652
  "epoch": 0.2443881245474294,
653
+ "grad_norm": 24.091772079467773,
654
  "learning_rate": 6.6111111111111115e-06,
655
+ "loss": 1.3477,
656
  "step": 2025
657
  },
658
  {
659
  "epoch": 0.24740526188752113,
660
+ "grad_norm": 22.88396453857422,
661
  "learning_rate": 6.555555555555556e-06,
662
+ "loss": 1.3089,
663
  "step": 2050
664
  },
665
  {
666
  "epoch": 0.25042239922761284,
667
+ "grad_norm": 17.0950984954834,
668
  "learning_rate": 6.5000000000000004e-06,
669
+ "loss": 1.2598,
670
  "step": 2075
671
  },
672
  {
673
  "epoch": 0.25343953656770457,
674
+ "grad_norm": 19.088529586791992,
675
  "learning_rate": 6.444444444444445e-06,
676
+ "loss": 1.2255,
677
  "step": 2100
678
  },
679
  {
680
  "epoch": 0.2564566739077963,
681
+ "grad_norm": 24.771873474121094,
682
  "learning_rate": 6.3888888888888885e-06,
683
+ "loss": 1.2642,
684
  "step": 2125
685
  },
686
  {
687
  "epoch": 0.259473811247888,
688
+ "grad_norm": 25.191925048828125,
689
  "learning_rate": 6.333333333333333e-06,
690
+ "loss": 1.2942,
691
  "step": 2150
692
  },
693
  {
694
  "epoch": 0.2624909485879797,
695
+ "grad_norm": 25.375642776489258,
696
  "learning_rate": 6.277777777777778e-06,
697
+ "loss": 1.4181,
698
  "step": 2175
699
  },
700
  {
701
  "epoch": 0.26550808592807146,
702
+ "grad_norm": 21.1870059967041,
703
  "learning_rate": 6.222222222222223e-06,
704
+ "loss": 1.304,
705
  "step": 2200
706
  },
707
  {
708
  "epoch": 0.2685252232681632,
709
+ "grad_norm": 25.293983459472656,
710
  "learning_rate": 6.166666666666667e-06,
711
+ "loss": 1.2795,
712
  "step": 2225
713
  },
714
  {
715
  "epoch": 0.2715423606082549,
716
+ "grad_norm": 18.648513793945312,
717
  "learning_rate": 6.111111111111112e-06,
718
+ "loss": 1.3909,
719
  "step": 2250
720
  },
721
  {
722
  "epoch": 0.2715423606082549,
723
+ "eval_cer": 69.14660914034863,
724
+ "eval_loss": 1.2956976890563965,
725
+ "eval_runtime": 4406.2547,
726
+ "eval_samples_per_second": 3.761,
727
+ "eval_steps_per_second": 0.47,
728
+ "eval_wer": 94.55374823893361,
729
  "step": 2250
730
  },
731
  {
732
  "epoch": 0.2745594979483466,
733
+ "grad_norm": 19.018657684326172,
734
  "learning_rate": 6.055555555555555e-06,
735
+ "loss": 1.3042,
736
  "step": 2275
737
  },
738
  {
739
  "epoch": 0.27757663528843834,
740
+ "grad_norm": 21.156967163085938,
741
  "learning_rate": 6e-06,
742
+ "loss": 1.2785,
743
  "step": 2300
744
  },
745
  {
746
  "epoch": 0.28059377262853,
747
+ "grad_norm": 18.3033390045166,
748
  "learning_rate": 5.944444444444445e-06,
749
+ "loss": 1.2613,
750
  "step": 2325
751
  },
752
  {
753
  "epoch": 0.28361090996862176,
754
+ "grad_norm": 16.72675323486328,
755
  "learning_rate": 5.88888888888889e-06,
756
+ "loss": 1.2575,
757
  "step": 2350
758
  },
759
  {
760
  "epoch": 0.2866280473087135,
761
+ "grad_norm": 28.087432861328125,
762
  "learning_rate": 5.833333333333334e-06,
763
+ "loss": 1.3014,
764
  "step": 2375
765
  },
766
  {
767
  "epoch": 0.28964518464880523,
768
+ "grad_norm": 26.902196884155273,
769
  "learning_rate": 5.777777777777778e-06,
770
+ "loss": 1.2205,
771
  "step": 2400
772
  },
773
  {
774
  "epoch": 0.2926623219888969,
775
+ "grad_norm": 23.583770751953125,
776
  "learning_rate": 5.722222222222222e-06,
777
+ "loss": 1.256,
778
  "step": 2425
779
  },
780
  {
781
  "epoch": 0.29567945932898865,
782
+ "grad_norm": 24.659427642822266,
783
  "learning_rate": 5.666666666666667e-06,
784
+ "loss": 1.3358,
785
  "step": 2450
786
  },
787
  {
788
  "epoch": 0.2986965966690804,
789
+ "grad_norm": 24.409543991088867,
790
  "learning_rate": 5.611111111111112e-06,
791
+ "loss": 1.2786,
792
  "step": 2475
793
  },
794
  {
795
  "epoch": 0.3017137340091721,
796
+ "grad_norm": 23.712934494018555,
797
  "learning_rate": 5.555555555555557e-06,
798
+ "loss": 1.3662,
799
  "step": 2500
800
  },
801
  {
802
  "epoch": 0.3017137340091721,
803
+ "eval_cer": 59.539550600782945,
804
+ "eval_loss": 1.282615065574646,
805
+ "eval_runtime": 5034.6376,
806
+ "eval_samples_per_second": 3.292,
807
+ "eval_steps_per_second": 0.412,
808
+ "eval_wer": 84.68093910404824,
809
  "step": 2500
810
  }
811
  ],
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4a4d80345da3e67ae6f5163b9180309d128ac7168dccb87fb5e3fadd8ad567e3
3
  size 5240
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:90898e8dbc5dd08c90889825743818b940619f4222335a58bdeaa3938a60ec53
3
  size 5240