Ramnathan commited on
Commit
364e224
·
1 Parent(s): 6e5e690

Update from

Browse files
Files changed (1) hide show
  1. trainer_state.json +436 -0
trainer_state.json ADDED
@@ -0,0 +1,436 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 8.658008658008658,
5
+ "global_step": 2000,
6
+ "is_hyper_param_search": false,
7
+ "is_local_process_zero": true,
8
+ "is_world_process_zero": true,
9
+ "log_history": [
10
+ {
11
+ "epoch": 0.22,
12
+ "learning_rate": 8.333333333333334e-06,
13
+ "loss": 7866.0069,
14
+ "step": 50
15
+ },
16
+ {
17
+ "epoch": 0.43,
18
+ "learning_rate": 1.6666666666666667e-05,
19
+ "loss": 4137.7106,
20
+ "step": 100
21
+ },
22
+ {
23
+ "epoch": 0.43,
24
+ "eval_loss": 3112.050537109375,
25
+ "eval_runtime": 179.5895,
26
+ "eval_samples_per_second": 9.355,
27
+ "eval_steps_per_second": 0.468,
28
+ "eval_wer": 1.0,
29
+ "step": 100
30
+ },
31
+ {
32
+ "epoch": 0.65,
33
+ "learning_rate": 2.5e-05,
34
+ "loss": 3114.5012,
35
+ "step": 150
36
+ },
37
+ {
38
+ "epoch": 0.87,
39
+ "learning_rate": 3.3333333333333335e-05,
40
+ "loss": 2980.0003,
41
+ "step": 200
42
+ },
43
+ {
44
+ "epoch": 0.87,
45
+ "eval_loss": 2958.919921875,
46
+ "eval_runtime": 167.1595,
47
+ "eval_samples_per_second": 10.05,
48
+ "eval_steps_per_second": 0.503,
49
+ "eval_wer": 1.0,
50
+ "step": 200
51
+ },
52
+ {
53
+ "epoch": 1.08,
54
+ "learning_rate": 4.1666666666666665e-05,
55
+ "loss": 3155.9772,
56
+ "step": 250
57
+ },
58
+ {
59
+ "epoch": 1.3,
60
+ "learning_rate": 5e-05,
61
+ "loss": 2779.3762,
62
+ "step": 300
63
+ },
64
+ {
65
+ "epoch": 1.3,
66
+ "eval_loss": 2743.244140625,
67
+ "eval_runtime": 177.6493,
68
+ "eval_samples_per_second": 9.457,
69
+ "eval_steps_per_second": 0.473,
70
+ "eval_wer": 1.0,
71
+ "step": 300
72
+ },
73
+ {
74
+ "epoch": 1.52,
75
+ "learning_rate": 5.833333333333333e-05,
76
+ "loss": 2540.3578,
77
+ "step": 350
78
+ },
79
+ {
80
+ "epoch": 1.73,
81
+ "learning_rate": 6.666666666666667e-05,
82
+ "loss": 1841.6328,
83
+ "step": 400
84
+ },
85
+ {
86
+ "epoch": 1.73,
87
+ "eval_loss": 1341.6024169921875,
88
+ "eval_runtime": 181.145,
89
+ "eval_samples_per_second": 9.274,
90
+ "eval_steps_per_second": 0.464,
91
+ "eval_wer": 0.9295629466739967,
92
+ "step": 400
93
+ },
94
+ {
95
+ "epoch": 1.95,
96
+ "learning_rate": 7.5e-05,
97
+ "loss": 1248.4787,
98
+ "step": 450
99
+ },
100
+ {
101
+ "epoch": 2.16,
102
+ "learning_rate": 8.333333333333333e-05,
103
+ "loss": 1043.6277,
104
+ "step": 500
105
+ },
106
+ {
107
+ "epoch": 2.16,
108
+ "eval_loss": 793.3690185546875,
109
+ "eval_runtime": 175.8809,
110
+ "eval_samples_per_second": 9.552,
111
+ "eval_steps_per_second": 0.478,
112
+ "eval_wer": 0.5867234744365035,
113
+ "step": 500
114
+ },
115
+ {
116
+ "epoch": 2.38,
117
+ "learning_rate": 9.166666666666667e-05,
118
+ "loss": 827.3966,
119
+ "step": 550
120
+ },
121
+ {
122
+ "epoch": 2.6,
123
+ "learning_rate": 0.0001,
124
+ "loss": 834.6795,
125
+ "step": 600
126
+ },
127
+ {
128
+ "epoch": 2.6,
129
+ "eval_loss": 582.5656127929688,
130
+ "eval_runtime": 180.7161,
131
+ "eval_samples_per_second": 9.296,
132
+ "eval_steps_per_second": 0.465,
133
+ "eval_wer": 0.44612424409015944,
134
+ "step": 600
135
+ },
136
+ {
137
+ "epoch": 2.81,
138
+ "learning_rate": 0.00010833333333333334,
139
+ "loss": 757.1235,
140
+ "step": 650
141
+ },
142
+ {
143
+ "epoch": 3.03,
144
+ "learning_rate": 0.00011666666666666667,
145
+ "loss": 681.7599,
146
+ "step": 700
147
+ },
148
+ {
149
+ "epoch": 3.03,
150
+ "eval_loss": 502.809814453125,
151
+ "eval_runtime": 167.2696,
152
+ "eval_samples_per_second": 10.044,
153
+ "eval_steps_per_second": 0.502,
154
+ "eval_wer": 0.40702308960967565,
155
+ "step": 700
156
+ },
157
+ {
158
+ "epoch": 3.25,
159
+ "learning_rate": 0.000125,
160
+ "loss": 566.5348,
161
+ "step": 750
162
+ },
163
+ {
164
+ "epoch": 3.46,
165
+ "learning_rate": 0.00013333333333333334,
166
+ "loss": 499.7937,
167
+ "step": 800
168
+ },
169
+ {
170
+ "epoch": 3.46,
171
+ "eval_loss": 472.62139892578125,
172
+ "eval_runtime": 167.1792,
173
+ "eval_samples_per_second": 10.049,
174
+ "eval_steps_per_second": 0.502,
175
+ "eval_wer": 0.3989142385926333,
176
+ "step": 800
177
+ },
178
+ {
179
+ "epoch": 3.68,
180
+ "learning_rate": 0.00014166666666666668,
181
+ "loss": 436.0044,
182
+ "step": 850
183
+ },
184
+ {
185
+ "epoch": 3.9,
186
+ "learning_rate": 0.00015,
187
+ "loss": 392.5165,
188
+ "step": 900
189
+ },
190
+ {
191
+ "epoch": 3.9,
192
+ "eval_loss": 408.5908203125,
193
+ "eval_runtime": 174.8526,
194
+ "eval_samples_per_second": 9.608,
195
+ "eval_steps_per_second": 0.48,
196
+ "eval_wer": 0.34579439252336447,
197
+ "step": 900
198
+ },
199
+ {
200
+ "epoch": 4.11,
201
+ "learning_rate": 0.00015833333333333332,
202
+ "loss": 388.1201,
203
+ "step": 950
204
+ },
205
+ {
206
+ "epoch": 4.33,
207
+ "learning_rate": 0.00016666666666666666,
208
+ "loss": 351.2061,
209
+ "step": 1000
210
+ },
211
+ {
212
+ "epoch": 4.33,
213
+ "eval_loss": 433.3687438964844,
214
+ "eval_runtime": 170.1742,
215
+ "eval_samples_per_second": 9.872,
216
+ "eval_steps_per_second": 0.494,
217
+ "eval_wer": 0.32449147883452445,
218
+ "step": 1000
219
+ },
220
+ {
221
+ "epoch": 4.55,
222
+ "learning_rate": 0.000175,
223
+ "loss": 371.0807,
224
+ "step": 1050
225
+ },
226
+ {
227
+ "epoch": 4.76,
228
+ "learning_rate": 0.00018333333333333334,
229
+ "loss": 332.344,
230
+ "step": 1100
231
+ },
232
+ {
233
+ "epoch": 4.76,
234
+ "eval_loss": 412.85247802734375,
235
+ "eval_runtime": 189.4552,
236
+ "eval_samples_per_second": 8.868,
237
+ "eval_steps_per_second": 0.443,
238
+ "eval_wer": 0.32909565695437054,
239
+ "step": 1100
240
+ },
241
+ {
242
+ "epoch": 4.98,
243
+ "learning_rate": 0.00019166666666666667,
244
+ "loss": 332.4827,
245
+ "step": 1150
246
+ },
247
+ {
248
+ "epoch": 5.19,
249
+ "learning_rate": 0.0002,
250
+ "loss": 308.6846,
251
+ "step": 1200
252
+ },
253
+ {
254
+ "epoch": 5.19,
255
+ "eval_loss": 440.1231994628906,
256
+ "eval_runtime": 168.6145,
257
+ "eval_samples_per_second": 9.964,
258
+ "eval_steps_per_second": 0.498,
259
+ "eval_wer": 0.3194062671797691,
260
+ "step": 1200
261
+ },
262
+ {
263
+ "epoch": 5.41,
264
+ "learning_rate": 0.00020833333333333335,
265
+ "loss": 298.0805,
266
+ "step": 1250
267
+ },
268
+ {
269
+ "epoch": 5.63,
270
+ "learning_rate": 0.00021666666666666668,
271
+ "loss": 318.8863,
272
+ "step": 1300
273
+ },
274
+ {
275
+ "epoch": 5.63,
276
+ "eval_loss": 436.9075012207031,
277
+ "eval_runtime": 166.5693,
278
+ "eval_samples_per_second": 10.086,
279
+ "eval_steps_per_second": 0.504,
280
+ "eval_wer": 0.325109950522265,
281
+ "step": 1300
282
+ },
283
+ {
284
+ "epoch": 5.84,
285
+ "learning_rate": 0.00022500000000000002,
286
+ "loss": 317.8166,
287
+ "step": 1350
288
+ },
289
+ {
290
+ "epoch": 6.06,
291
+ "learning_rate": 0.00023333333333333333,
292
+ "loss": 303.7214,
293
+ "step": 1400
294
+ },
295
+ {
296
+ "epoch": 6.06,
297
+ "eval_loss": 427.9447937011719,
298
+ "eval_runtime": 201.1021,
299
+ "eval_samples_per_second": 8.354,
300
+ "eval_steps_per_second": 0.418,
301
+ "eval_wer": 0.32387300714678396,
302
+ "step": 1400
303
+ },
304
+ {
305
+ "epoch": 6.28,
306
+ "learning_rate": 0.00024166666666666667,
307
+ "loss": 291.1951,
308
+ "step": 1450
309
+ },
310
+ {
311
+ "epoch": 6.49,
312
+ "learning_rate": 0.00025,
313
+ "loss": 282.5848,
314
+ "step": 1500
315
+ },
316
+ {
317
+ "epoch": 6.49,
318
+ "eval_loss": 426.2596130371094,
319
+ "eval_runtime": 183.3654,
320
+ "eval_samples_per_second": 9.162,
321
+ "eval_steps_per_second": 0.458,
322
+ "eval_wer": 0.30648708081363385,
323
+ "step": 1500
324
+ },
325
+ {
326
+ "epoch": 6.71,
327
+ "learning_rate": 0.00025833333333333334,
328
+ "loss": 307.7221,
329
+ "step": 1550
330
+ },
331
+ {
332
+ "epoch": 6.93,
333
+ "learning_rate": 0.0002666666666666667,
334
+ "loss": 276.1861,
335
+ "step": 1600
336
+ },
337
+ {
338
+ "epoch": 6.93,
339
+ "eval_loss": 495.3029479980469,
340
+ "eval_runtime": 202.5189,
341
+ "eval_samples_per_second": 8.296,
342
+ "eval_steps_per_second": 0.415,
343
+ "eval_wer": 0.3147333699835074,
344
+ "step": 1600
345
+ },
346
+ {
347
+ "epoch": 7.14,
348
+ "learning_rate": 0.000275,
349
+ "loss": 267.0663,
350
+ "step": 1650
351
+ },
352
+ {
353
+ "epoch": 7.36,
354
+ "learning_rate": 0.00028333333333333335,
355
+ "loss": 268.4355,
356
+ "step": 1700
357
+ },
358
+ {
359
+ "epoch": 7.36,
360
+ "eval_loss": 458.63690185546875,
361
+ "eval_runtime": 177.1854,
362
+ "eval_samples_per_second": 9.482,
363
+ "eval_steps_per_second": 0.474,
364
+ "eval_wer": 0.32497251236943375,
365
+ "step": 1700
366
+ },
367
+ {
368
+ "epoch": 7.58,
369
+ "learning_rate": 0.0002916666666666667,
370
+ "loss": 280.6286,
371
+ "step": 1750
372
+ },
373
+ {
374
+ "epoch": 7.79,
375
+ "learning_rate": 0.0003,
376
+ "loss": 277.7815,
377
+ "step": 1800
378
+ },
379
+ {
380
+ "epoch": 7.79,
381
+ "eval_loss": 540.147705078125,
382
+ "eval_runtime": 176.8625,
383
+ "eval_samples_per_second": 9.499,
384
+ "eval_steps_per_second": 0.475,
385
+ "eval_wer": 0.34819956019791093,
386
+ "step": 1800
387
+ },
388
+ {
389
+ "epoch": 8.01,
390
+ "learning_rate": 0.00030833333333333337,
391
+ "loss": 271.2937,
392
+ "step": 1850
393
+ },
394
+ {
395
+ "epoch": 8.23,
396
+ "learning_rate": 0.00031666666666666665,
397
+ "loss": 247.8558,
398
+ "step": 1900
399
+ },
400
+ {
401
+ "epoch": 8.23,
402
+ "eval_loss": 457.4529113769531,
403
+ "eval_runtime": 181.8308,
404
+ "eval_samples_per_second": 9.239,
405
+ "eval_steps_per_second": 0.462,
406
+ "eval_wer": 0.33981583287520617,
407
+ "step": 1900
408
+ },
409
+ {
410
+ "epoch": 8.44,
411
+ "learning_rate": 0.00032500000000000004,
412
+ "loss": 271.9148,
413
+ "step": 1950
414
+ },
415
+ {
416
+ "epoch": 8.66,
417
+ "learning_rate": 0.0003333333333333333,
418
+ "loss": 325.8626,
419
+ "step": 2000
420
+ },
421
+ {
422
+ "epoch": 8.66,
423
+ "eval_loss": 450.06524658203125,
424
+ "eval_runtime": 162.9106,
425
+ "eval_samples_per_second": 10.312,
426
+ "eval_steps_per_second": 0.516,
427
+ "eval_wer": 0.3224986256184717,
428
+ "step": 2000
429
+ }
430
+ ],
431
+ "max_steps": 2310,
432
+ "num_train_epochs": 10,
433
+ "total_flos": 1.1409490176804864e+18,
434
+ "trial_name": null,
435
+ "trial_params": null
436
+ }