ManyingZ commited on
Commit
13babf7
·
verified ·
1 Parent(s): d9e477a

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +2103 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:afbb9fafdaa3ca57948b5758a6f7f91aff0d8bb88753df2cf01d7363ea7ed873
3
  size 3705288
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7eaf165321a6e07d20dfb4acf0b71c58ce8bd857e3963bdf551bd937c35ebe5e
3
  size 3705288
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4ef832f29c75c0a4f145b612ac65d501410d3c9e4ad8c11582372091e773bf49
3
  size 2213690
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4fb0c49d2beff6cc27e40fe90e9eda9eb8e07a2d6b5742058d0507fc8e982a55
3
  size 2213690
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7fca791d6b819bad1dbc285bf8bd7345964c2aeaf16b7d702b5c0c5380f2a057
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6d451be845325aaf5529b57ca9d6ff558484e3afd1212dcb496ff63ca3323c12
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6b04bc150d39b084b09acd98d05c3563c323fc35277059ff5584f9f2d3fde608
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd293d9ce0598f9847da19abf5d46d556cd79a0ffc0ab198425114ba155d0d8b
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 43.92922513727883,
5
  "eval_steps": 500,
6
- "global_step": 9000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3157,6 +3157,2106 @@
3157
  "learning_rate": 0.0001123152709359606,
3158
  "loss": 0.3774,
3159
  "step": 9000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3160
  }
3161
  ],
3162
  "logging_steps": 20,
@@ -3176,7 +5276,7 @@
3176
  "attributes": {}
3177
  }
3178
  },
3179
- "total_flos": 1.79330460401664e+17,
3180
  "train_batch_size": 1,
3181
  "trial_name": null,
3182
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 73.21537522879805,
5
  "eval_steps": 500,
6
+ "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3157
  "learning_rate": 0.0001123152709359606,
3158
  "loss": 0.3774,
3159
  "step": 9000
3160
+ },
3161
+ {
3162
+ "epoch": 44.02684563758389,
3163
+ "grad_norm": 3.0228703022003174,
3164
+ "learning_rate": 0.00011211822660098524,
3165
+ "loss": 0.3479,
3166
+ "step": 9020
3167
+ },
3168
+ {
3169
+ "epoch": 44.12446613788896,
3170
+ "grad_norm": 4.042842864990234,
3171
+ "learning_rate": 0.00011192118226600985,
3172
+ "loss": 0.3567,
3173
+ "step": 9040
3174
+ },
3175
+ {
3176
+ "epoch": 44.22208663819402,
3177
+ "grad_norm": 2.5165748596191406,
3178
+ "learning_rate": 0.00011172413793103449,
3179
+ "loss": 0.357,
3180
+ "step": 9060
3181
+ },
3182
+ {
3183
+ "epoch": 44.31970713849908,
3184
+ "grad_norm": 2.9104301929473877,
3185
+ "learning_rate": 0.00011152709359605913,
3186
+ "loss": 0.3478,
3187
+ "step": 9080
3188
+ },
3189
+ {
3190
+ "epoch": 44.417327638804146,
3191
+ "grad_norm": 5.000180244445801,
3192
+ "learning_rate": 0.00011133004926108374,
3193
+ "loss": 0.3372,
3194
+ "step": 9100
3195
+ },
3196
+ {
3197
+ "epoch": 44.514948139109215,
3198
+ "grad_norm": 2.7573766708374023,
3199
+ "learning_rate": 0.00011113300492610838,
3200
+ "loss": 0.3574,
3201
+ "step": 9120
3202
+ },
3203
+ {
3204
+ "epoch": 44.61256863941428,
3205
+ "grad_norm": 3.473818778991699,
3206
+ "learning_rate": 0.000110935960591133,
3207
+ "loss": 0.3666,
3208
+ "step": 9140
3209
+ },
3210
+ {
3211
+ "epoch": 44.71018913971934,
3212
+ "grad_norm": 4.236100196838379,
3213
+ "learning_rate": 0.00011073891625615764,
3214
+ "loss": 0.3612,
3215
+ "step": 9160
3216
+ },
3217
+ {
3218
+ "epoch": 44.8078096400244,
3219
+ "grad_norm": 5.279041290283203,
3220
+ "learning_rate": 0.00011054187192118227,
3221
+ "loss": 0.3694,
3222
+ "step": 9180
3223
+ },
3224
+ {
3225
+ "epoch": 44.90543014032947,
3226
+ "grad_norm": 3.0009076595306396,
3227
+ "learning_rate": 0.0001103448275862069,
3228
+ "loss": 0.3629,
3229
+ "step": 9200
3230
+ },
3231
+ {
3232
+ "epoch": 45.003050640634534,
3233
+ "grad_norm": 3.358452796936035,
3234
+ "learning_rate": 0.00011014778325123153,
3235
+ "loss": 0.3584,
3236
+ "step": 9220
3237
+ },
3238
+ {
3239
+ "epoch": 45.100671140939596,
3240
+ "grad_norm": 2.9341399669647217,
3241
+ "learning_rate": 0.00010995073891625616,
3242
+ "loss": 0.3437,
3243
+ "step": 9240
3244
+ },
3245
+ {
3246
+ "epoch": 45.19829164124466,
3247
+ "grad_norm": 3.1249337196350098,
3248
+ "learning_rate": 0.0001097536945812808,
3249
+ "loss": 0.3551,
3250
+ "step": 9260
3251
+ },
3252
+ {
3253
+ "epoch": 45.29591214154973,
3254
+ "grad_norm": 2.4878969192504883,
3255
+ "learning_rate": 0.00010955665024630541,
3256
+ "loss": 0.3379,
3257
+ "step": 9280
3258
+ },
3259
+ {
3260
+ "epoch": 45.39353264185479,
3261
+ "grad_norm": 3.114165782928467,
3262
+ "learning_rate": 0.00010935960591133006,
3263
+ "loss": 0.3616,
3264
+ "step": 9300
3265
+ },
3266
+ {
3267
+ "epoch": 45.49115314215985,
3268
+ "grad_norm": 3.0727782249450684,
3269
+ "learning_rate": 0.0001091625615763547,
3270
+ "loss": 0.348,
3271
+ "step": 9320
3272
+ },
3273
+ {
3274
+ "epoch": 45.588773642464915,
3275
+ "grad_norm": 2.9487972259521484,
3276
+ "learning_rate": 0.00010896551724137931,
3277
+ "loss": 0.3397,
3278
+ "step": 9340
3279
+ },
3280
+ {
3281
+ "epoch": 45.686394142769984,
3282
+ "grad_norm": 3.0654473304748535,
3283
+ "learning_rate": 0.00010876847290640395,
3284
+ "loss": 0.3515,
3285
+ "step": 9360
3286
+ },
3287
+ {
3288
+ "epoch": 45.78401464307505,
3289
+ "grad_norm": 4.303600311279297,
3290
+ "learning_rate": 0.00010857142857142856,
3291
+ "loss": 0.3586,
3292
+ "step": 9380
3293
+ },
3294
+ {
3295
+ "epoch": 45.88163514338011,
3296
+ "grad_norm": 2.946246385574341,
3297
+ "learning_rate": 0.0001083743842364532,
3298
+ "loss": 0.3436,
3299
+ "step": 9400
3300
+ },
3301
+ {
3302
+ "epoch": 45.97925564368517,
3303
+ "grad_norm": 2.4360456466674805,
3304
+ "learning_rate": 0.00010817733990147785,
3305
+ "loss": 0.3766,
3306
+ "step": 9420
3307
+ },
3308
+ {
3309
+ "epoch": 46.07687614399024,
3310
+ "grad_norm": 2.8351433277130127,
3311
+ "learning_rate": 0.00010798029556650246,
3312
+ "loss": 0.3547,
3313
+ "step": 9440
3314
+ },
3315
+ {
3316
+ "epoch": 46.1744966442953,
3317
+ "grad_norm": 2.6005990505218506,
3318
+ "learning_rate": 0.0001077832512315271,
3319
+ "loss": 0.3333,
3320
+ "step": 9460
3321
+ },
3322
+ {
3323
+ "epoch": 46.272117144600365,
3324
+ "grad_norm": 2.52091121673584,
3325
+ "learning_rate": 0.00010758620689655173,
3326
+ "loss": 0.3507,
3327
+ "step": 9480
3328
+ },
3329
+ {
3330
+ "epoch": 46.36973764490543,
3331
+ "grad_norm": 3.0750203132629395,
3332
+ "learning_rate": 0.00010738916256157637,
3333
+ "loss": 0.3376,
3334
+ "step": 9500
3335
+ },
3336
+ {
3337
+ "epoch": 46.4673581452105,
3338
+ "grad_norm": 3.353597640991211,
3339
+ "learning_rate": 0.00010719211822660098,
3340
+ "loss": 0.3362,
3341
+ "step": 9520
3342
+ },
3343
+ {
3344
+ "epoch": 46.56497864551556,
3345
+ "grad_norm": 3.786407232284546,
3346
+ "learning_rate": 0.00010699507389162562,
3347
+ "loss": 0.3774,
3348
+ "step": 9540
3349
+ },
3350
+ {
3351
+ "epoch": 46.66259914582062,
3352
+ "grad_norm": 3.2476627826690674,
3353
+ "learning_rate": 0.00010679802955665026,
3354
+ "loss": 0.3423,
3355
+ "step": 9560
3356
+ },
3357
+ {
3358
+ "epoch": 46.760219646125684,
3359
+ "grad_norm": 2.966078281402588,
3360
+ "learning_rate": 0.00010660098522167488,
3361
+ "loss": 0.3382,
3362
+ "step": 9580
3363
+ },
3364
+ {
3365
+ "epoch": 46.85784014643075,
3366
+ "grad_norm": 3.7173826694488525,
3367
+ "learning_rate": 0.00010640394088669952,
3368
+ "loss": 0.3512,
3369
+ "step": 9600
3370
+ },
3371
+ {
3372
+ "epoch": 46.955460646735816,
3373
+ "grad_norm": 3.6152524948120117,
3374
+ "learning_rate": 0.00010620689655172413,
3375
+ "loss": 0.3499,
3376
+ "step": 9620
3377
+ },
3378
+ {
3379
+ "epoch": 47.05308114704088,
3380
+ "grad_norm": 3.6383986473083496,
3381
+ "learning_rate": 0.00010600985221674877,
3382
+ "loss": 0.3442,
3383
+ "step": 9640
3384
+ },
3385
+ {
3386
+ "epoch": 47.15070164734594,
3387
+ "grad_norm": 2.636918306350708,
3388
+ "learning_rate": 0.00010581280788177341,
3389
+ "loss": 0.3355,
3390
+ "step": 9660
3391
+ },
3392
+ {
3393
+ "epoch": 47.24832214765101,
3394
+ "grad_norm": 3.8844096660614014,
3395
+ "learning_rate": 0.00010561576354679802,
3396
+ "loss": 0.3389,
3397
+ "step": 9680
3398
+ },
3399
+ {
3400
+ "epoch": 47.34594264795607,
3401
+ "grad_norm": 4.149389743804932,
3402
+ "learning_rate": 0.00010541871921182267,
3403
+ "loss": 0.3168,
3404
+ "step": 9700
3405
+ },
3406
+ {
3407
+ "epoch": 47.443563148261134,
3408
+ "grad_norm": 3.205845832824707,
3409
+ "learning_rate": 0.00010522167487684729,
3410
+ "loss": 0.3247,
3411
+ "step": 9720
3412
+ },
3413
+ {
3414
+ "epoch": 47.5411836485662,
3415
+ "grad_norm": 3.4177889823913574,
3416
+ "learning_rate": 0.00010502463054187193,
3417
+ "loss": 0.3472,
3418
+ "step": 9740
3419
+ },
3420
+ {
3421
+ "epoch": 47.638804148871266,
3422
+ "grad_norm": 3.2508625984191895,
3423
+ "learning_rate": 0.00010482758620689656,
3424
+ "loss": 0.3354,
3425
+ "step": 9760
3426
+ },
3427
+ {
3428
+ "epoch": 47.73642464917633,
3429
+ "grad_norm": 3.2071492671966553,
3430
+ "learning_rate": 0.00010463054187192119,
3431
+ "loss": 0.3515,
3432
+ "step": 9780
3433
+ },
3434
+ {
3435
+ "epoch": 47.83404514948139,
3436
+ "grad_norm": 2.505859613418579,
3437
+ "learning_rate": 0.00010443349753694583,
3438
+ "loss": 0.3654,
3439
+ "step": 9800
3440
+ },
3441
+ {
3442
+ "epoch": 47.93166564978645,
3443
+ "grad_norm": 3.092602491378784,
3444
+ "learning_rate": 0.00010423645320197044,
3445
+ "loss": 0.3551,
3446
+ "step": 9820
3447
+ },
3448
+ {
3449
+ "epoch": 48.02928615009152,
3450
+ "grad_norm": 3.411740303039551,
3451
+ "learning_rate": 0.00010403940886699508,
3452
+ "loss": 0.3445,
3453
+ "step": 9840
3454
+ },
3455
+ {
3456
+ "epoch": 48.126906650396585,
3457
+ "grad_norm": 2.587663412094116,
3458
+ "learning_rate": 0.00010384236453201972,
3459
+ "loss": 0.3132,
3460
+ "step": 9860
3461
+ },
3462
+ {
3463
+ "epoch": 48.22452715070165,
3464
+ "grad_norm": 2.244938850402832,
3465
+ "learning_rate": 0.00010364532019704434,
3466
+ "loss": 0.3327,
3467
+ "step": 9880
3468
+ },
3469
+ {
3470
+ "epoch": 48.32214765100671,
3471
+ "grad_norm": 3.426699638366699,
3472
+ "learning_rate": 0.00010344827586206898,
3473
+ "loss": 0.3163,
3474
+ "step": 9900
3475
+ },
3476
+ {
3477
+ "epoch": 48.41976815131178,
3478
+ "grad_norm": 2.600964069366455,
3479
+ "learning_rate": 0.00010325123152709359,
3480
+ "loss": 0.3318,
3481
+ "step": 9920
3482
+ },
3483
+ {
3484
+ "epoch": 48.51738865161684,
3485
+ "grad_norm": 2.5745320320129395,
3486
+ "learning_rate": 0.00010305418719211823,
3487
+ "loss": 0.3302,
3488
+ "step": 9940
3489
+ },
3490
+ {
3491
+ "epoch": 48.6150091519219,
3492
+ "grad_norm": 2.9485421180725098,
3493
+ "learning_rate": 0.00010285714285714286,
3494
+ "loss": 0.3468,
3495
+ "step": 9960
3496
+ },
3497
+ {
3498
+ "epoch": 48.712629652226966,
3499
+ "grad_norm": 2.783953905105591,
3500
+ "learning_rate": 0.00010266009852216748,
3501
+ "loss": 0.3339,
3502
+ "step": 9980
3503
+ },
3504
+ {
3505
+ "epoch": 48.810250152532035,
3506
+ "grad_norm": 3.2114439010620117,
3507
+ "learning_rate": 0.00010246305418719213,
3508
+ "loss": 0.3496,
3509
+ "step": 10000
3510
+ },
3511
+ {
3512
+ "epoch": 48.9078706528371,
3513
+ "grad_norm": 4.33662748336792,
3514
+ "learning_rate": 0.00010226600985221675,
3515
+ "loss": 0.3358,
3516
+ "step": 10020
3517
+ },
3518
+ {
3519
+ "epoch": 49.00549115314216,
3520
+ "grad_norm": 2.714755058288574,
3521
+ "learning_rate": 0.0001020689655172414,
3522
+ "loss": 0.3677,
3523
+ "step": 10040
3524
+ },
3525
+ {
3526
+ "epoch": 49.10311165344722,
3527
+ "grad_norm": 2.1904876232147217,
3528
+ "learning_rate": 0.00010187192118226601,
3529
+ "loss": 0.2878,
3530
+ "step": 10060
3531
+ },
3532
+ {
3533
+ "epoch": 49.20073215375229,
3534
+ "grad_norm": 2.530484676361084,
3535
+ "learning_rate": 0.00010167487684729065,
3536
+ "loss": 0.3221,
3537
+ "step": 10080
3538
+ },
3539
+ {
3540
+ "epoch": 49.298352654057354,
3541
+ "grad_norm": 3.1762654781341553,
3542
+ "learning_rate": 0.00010147783251231529,
3543
+ "loss": 0.3427,
3544
+ "step": 10100
3545
+ },
3546
+ {
3547
+ "epoch": 49.395973154362416,
3548
+ "grad_norm": 3.0370638370513916,
3549
+ "learning_rate": 0.0001012807881773399,
3550
+ "loss": 0.3466,
3551
+ "step": 10120
3552
+ },
3553
+ {
3554
+ "epoch": 49.49359365466748,
3555
+ "grad_norm": 2.5626463890075684,
3556
+ "learning_rate": 0.00010108374384236454,
3557
+ "loss": 0.3218,
3558
+ "step": 10140
3559
+ },
3560
+ {
3561
+ "epoch": 49.59121415497255,
3562
+ "grad_norm": 3.4357545375823975,
3563
+ "learning_rate": 0.00010088669950738916,
3564
+ "loss": 0.3312,
3565
+ "step": 10160
3566
+ },
3567
+ {
3568
+ "epoch": 49.68883465527761,
3569
+ "grad_norm": 2.810955762863159,
3570
+ "learning_rate": 0.0001006896551724138,
3571
+ "loss": 0.3363,
3572
+ "step": 10180
3573
+ },
3574
+ {
3575
+ "epoch": 49.78645515558267,
3576
+ "grad_norm": 3.8722000122070312,
3577
+ "learning_rate": 0.00010049261083743844,
3578
+ "loss": 0.3251,
3579
+ "step": 10200
3580
+ },
3581
+ {
3582
+ "epoch": 49.884075655887735,
3583
+ "grad_norm": 3.185521364212036,
3584
+ "learning_rate": 0.00010029556650246305,
3585
+ "loss": 0.3429,
3586
+ "step": 10220
3587
+ },
3588
+ {
3589
+ "epoch": 49.981696156192804,
3590
+ "grad_norm": 2.707853078842163,
3591
+ "learning_rate": 0.00010009852216748769,
3592
+ "loss": 0.3548,
3593
+ "step": 10240
3594
+ },
3595
+ {
3596
+ "epoch": 50.079316656497866,
3597
+ "grad_norm": 2.749464511871338,
3598
+ "learning_rate": 9.990147783251232e-05,
3599
+ "loss": 0.3294,
3600
+ "step": 10260
3601
+ },
3602
+ {
3603
+ "epoch": 50.17693715680293,
3604
+ "grad_norm": 3.4640865325927734,
3605
+ "learning_rate": 9.970443349753696e-05,
3606
+ "loss": 0.3204,
3607
+ "step": 10280
3608
+ },
3609
+ {
3610
+ "epoch": 50.27455765710799,
3611
+ "grad_norm": 3.4412505626678467,
3612
+ "learning_rate": 9.950738916256159e-05,
3613
+ "loss": 0.3316,
3614
+ "step": 10300
3615
+ },
3616
+ {
3617
+ "epoch": 50.37217815741306,
3618
+ "grad_norm": 4.671158790588379,
3619
+ "learning_rate": 9.931034482758621e-05,
3620
+ "loss": 0.3092,
3621
+ "step": 10320
3622
+ },
3623
+ {
3624
+ "epoch": 50.46979865771812,
3625
+ "grad_norm": 2.812875986099243,
3626
+ "learning_rate": 9.911330049261084e-05,
3627
+ "loss": 0.3217,
3628
+ "step": 10340
3629
+ },
3630
+ {
3631
+ "epoch": 50.567419158023185,
3632
+ "grad_norm": 2.600764513015747,
3633
+ "learning_rate": 9.891625615763547e-05,
3634
+ "loss": 0.3525,
3635
+ "step": 10360
3636
+ },
3637
+ {
3638
+ "epoch": 50.66503965832825,
3639
+ "grad_norm": 2.8875558376312256,
3640
+ "learning_rate": 9.871921182266011e-05,
3641
+ "loss": 0.3267,
3642
+ "step": 10380
3643
+ },
3644
+ {
3645
+ "epoch": 50.76266015863331,
3646
+ "grad_norm": 2.479055643081665,
3647
+ "learning_rate": 9.852216748768474e-05,
3648
+ "loss": 0.3283,
3649
+ "step": 10400
3650
+ },
3651
+ {
3652
+ "epoch": 50.86028065893838,
3653
+ "grad_norm": 3.4580044746398926,
3654
+ "learning_rate": 9.832512315270936e-05,
3655
+ "loss": 0.3388,
3656
+ "step": 10420
3657
+ },
3658
+ {
3659
+ "epoch": 50.95790115924344,
3660
+ "grad_norm": 2.68265962600708,
3661
+ "learning_rate": 9.812807881773399e-05,
3662
+ "loss": 0.3309,
3663
+ "step": 10440
3664
+ },
3665
+ {
3666
+ "epoch": 51.0555216595485,
3667
+ "grad_norm": 2.545677661895752,
3668
+ "learning_rate": 9.793103448275862e-05,
3669
+ "loss": 0.3221,
3670
+ "step": 10460
3671
+ },
3672
+ {
3673
+ "epoch": 51.153142159853566,
3674
+ "grad_norm": 2.899627685546875,
3675
+ "learning_rate": 9.773399014778326e-05,
3676
+ "loss": 0.3084,
3677
+ "step": 10480
3678
+ },
3679
+ {
3680
+ "epoch": 51.250762660158635,
3681
+ "grad_norm": 2.948960781097412,
3682
+ "learning_rate": 9.753694581280788e-05,
3683
+ "loss": 0.3273,
3684
+ "step": 10500
3685
+ },
3686
+ {
3687
+ "epoch": 51.3483831604637,
3688
+ "grad_norm": 2.9379513263702393,
3689
+ "learning_rate": 9.733990147783252e-05,
3690
+ "loss": 0.3315,
3691
+ "step": 10520
3692
+ },
3693
+ {
3694
+ "epoch": 51.44600366076876,
3695
+ "grad_norm": 2.543419599533081,
3696
+ "learning_rate": 9.714285714285715e-05,
3697
+ "loss": 0.3258,
3698
+ "step": 10540
3699
+ },
3700
+ {
3701
+ "epoch": 51.54362416107382,
3702
+ "grad_norm": 2.7236459255218506,
3703
+ "learning_rate": 9.694581280788178e-05,
3704
+ "loss": 0.3129,
3705
+ "step": 10560
3706
+ },
3707
+ {
3708
+ "epoch": 51.64124466137889,
3709
+ "grad_norm": 3.11745548248291,
3710
+ "learning_rate": 9.67487684729064e-05,
3711
+ "loss": 0.3038,
3712
+ "step": 10580
3713
+ },
3714
+ {
3715
+ "epoch": 51.738865161683954,
3716
+ "grad_norm": 3.6259920597076416,
3717
+ "learning_rate": 9.655172413793105e-05,
3718
+ "loss": 0.3269,
3719
+ "step": 10600
3720
+ },
3721
+ {
3722
+ "epoch": 51.836485661989016,
3723
+ "grad_norm": 3.4961044788360596,
3724
+ "learning_rate": 9.635467980295567e-05,
3725
+ "loss": 0.336,
3726
+ "step": 10620
3727
+ },
3728
+ {
3729
+ "epoch": 51.93410616229408,
3730
+ "grad_norm": 3.01009202003479,
3731
+ "learning_rate": 9.61576354679803e-05,
3732
+ "loss": 0.3297,
3733
+ "step": 10640
3734
+ },
3735
+ {
3736
+ "epoch": 52.03172666259915,
3737
+ "grad_norm": 3.047903060913086,
3738
+ "learning_rate": 9.596059113300493e-05,
3739
+ "loss": 0.3295,
3740
+ "step": 10660
3741
+ },
3742
+ {
3743
+ "epoch": 52.12934716290421,
3744
+ "grad_norm": 2.8521170616149902,
3745
+ "learning_rate": 9.576354679802955e-05,
3746
+ "loss": 0.2952,
3747
+ "step": 10680
3748
+ },
3749
+ {
3750
+ "epoch": 52.22696766320927,
3751
+ "grad_norm": 2.8909034729003906,
3752
+ "learning_rate": 9.55665024630542e-05,
3753
+ "loss": 0.3128,
3754
+ "step": 10700
3755
+ },
3756
+ {
3757
+ "epoch": 52.324588163514335,
3758
+ "grad_norm": 3.2134296894073486,
3759
+ "learning_rate": 9.536945812807882e-05,
3760
+ "loss": 0.3175,
3761
+ "step": 10720
3762
+ },
3763
+ {
3764
+ "epoch": 52.422208663819404,
3765
+ "grad_norm": 3.113543748855591,
3766
+ "learning_rate": 9.517241379310345e-05,
3767
+ "loss": 0.3305,
3768
+ "step": 10740
3769
+ },
3770
+ {
3771
+ "epoch": 52.51982916412447,
3772
+ "grad_norm": 2.3091633319854736,
3773
+ "learning_rate": 9.497536945812808e-05,
3774
+ "loss": 0.3032,
3775
+ "step": 10760
3776
+ },
3777
+ {
3778
+ "epoch": 52.61744966442953,
3779
+ "grad_norm": 2.7626681327819824,
3780
+ "learning_rate": 9.477832512315272e-05,
3781
+ "loss": 0.3071,
3782
+ "step": 10780
3783
+ },
3784
+ {
3785
+ "epoch": 52.71507016473459,
3786
+ "grad_norm": 2.6978394985198975,
3787
+ "learning_rate": 9.458128078817734e-05,
3788
+ "loss": 0.3424,
3789
+ "step": 10800
3790
+ },
3791
+ {
3792
+ "epoch": 52.81269066503966,
3793
+ "grad_norm": 4.549131393432617,
3794
+ "learning_rate": 9.438423645320199e-05,
3795
+ "loss": 0.3086,
3796
+ "step": 10820
3797
+ },
3798
+ {
3799
+ "epoch": 52.91031116534472,
3800
+ "grad_norm": 3.3548974990844727,
3801
+ "learning_rate": 9.418719211822661e-05,
3802
+ "loss": 0.3414,
3803
+ "step": 10840
3804
+ },
3805
+ {
3806
+ "epoch": 53.007931665649785,
3807
+ "grad_norm": 2.191990852355957,
3808
+ "learning_rate": 9.399014778325124e-05,
3809
+ "loss": 0.3195,
3810
+ "step": 10860
3811
+ },
3812
+ {
3813
+ "epoch": 53.10555216595485,
3814
+ "grad_norm": 2.8169941902160645,
3815
+ "learning_rate": 9.379310344827587e-05,
3816
+ "loss": 0.2971,
3817
+ "step": 10880
3818
+ },
3819
+ {
3820
+ "epoch": 53.20317266625992,
3821
+ "grad_norm": 2.4809463024139404,
3822
+ "learning_rate": 9.35960591133005e-05,
3823
+ "loss": 0.3032,
3824
+ "step": 10900
3825
+ },
3826
+ {
3827
+ "epoch": 53.30079316656498,
3828
+ "grad_norm": 2.8981711864471436,
3829
+ "learning_rate": 9.339901477832512e-05,
3830
+ "loss": 0.3139,
3831
+ "step": 10920
3832
+ },
3833
+ {
3834
+ "epoch": 53.39841366687004,
3835
+ "grad_norm": 2.901442050933838,
3836
+ "learning_rate": 9.320197044334976e-05,
3837
+ "loss": 0.3197,
3838
+ "step": 10940
3839
+ },
3840
+ {
3841
+ "epoch": 53.496034167175104,
3842
+ "grad_norm": 3.1128933429718018,
3843
+ "learning_rate": 9.300492610837439e-05,
3844
+ "loss": 0.3109,
3845
+ "step": 10960
3846
+ },
3847
+ {
3848
+ "epoch": 53.59365466748017,
3849
+ "grad_norm": 2.6892173290252686,
3850
+ "learning_rate": 9.280788177339902e-05,
3851
+ "loss": 0.3153,
3852
+ "step": 10980
3853
+ },
3854
+ {
3855
+ "epoch": 53.691275167785236,
3856
+ "grad_norm": 3.1847739219665527,
3857
+ "learning_rate": 9.261083743842364e-05,
3858
+ "loss": 0.3135,
3859
+ "step": 11000
3860
+ },
3861
+ {
3862
+ "epoch": 53.7888956680903,
3863
+ "grad_norm": 3.1111955642700195,
3864
+ "learning_rate": 9.241379310344827e-05,
3865
+ "loss": 0.3472,
3866
+ "step": 11020
3867
+ },
3868
+ {
3869
+ "epoch": 53.88651616839536,
3870
+ "grad_norm": 2.667539119720459,
3871
+ "learning_rate": 9.221674876847291e-05,
3872
+ "loss": 0.3107,
3873
+ "step": 11040
3874
+ },
3875
+ {
3876
+ "epoch": 53.98413666870043,
3877
+ "grad_norm": 2.1500725746154785,
3878
+ "learning_rate": 9.201970443349755e-05,
3879
+ "loss": 0.3192,
3880
+ "step": 11060
3881
+ },
3882
+ {
3883
+ "epoch": 54.08175716900549,
3884
+ "grad_norm": 3.6513638496398926,
3885
+ "learning_rate": 9.182266009852218e-05,
3886
+ "loss": 0.2974,
3887
+ "step": 11080
3888
+ },
3889
+ {
3890
+ "epoch": 54.179377669310554,
3891
+ "grad_norm": 3.226287364959717,
3892
+ "learning_rate": 9.16256157635468e-05,
3893
+ "loss": 0.3216,
3894
+ "step": 11100
3895
+ },
3896
+ {
3897
+ "epoch": 54.27699816961562,
3898
+ "grad_norm": 3.4577550888061523,
3899
+ "learning_rate": 9.142857142857143e-05,
3900
+ "loss": 0.2999,
3901
+ "step": 11120
3902
+ },
3903
+ {
3904
+ "epoch": 54.374618669920686,
3905
+ "grad_norm": 2.047478199005127,
3906
+ "learning_rate": 9.123152709359606e-05,
3907
+ "loss": 0.3139,
3908
+ "step": 11140
3909
+ },
3910
+ {
3911
+ "epoch": 54.47223917022575,
3912
+ "grad_norm": 3.0338408946990967,
3913
+ "learning_rate": 9.10344827586207e-05,
3914
+ "loss": 0.2954,
3915
+ "step": 11160
3916
+ },
3917
+ {
3918
+ "epoch": 54.56985967053081,
3919
+ "grad_norm": 2.6099050045013428,
3920
+ "learning_rate": 9.083743842364533e-05,
3921
+ "loss": 0.3218,
3922
+ "step": 11180
3923
+ },
3924
+ {
3925
+ "epoch": 54.66748017083587,
3926
+ "grad_norm": 3.248973846435547,
3927
+ "learning_rate": 9.064039408866995e-05,
3928
+ "loss": 0.3243,
3929
+ "step": 11200
3930
+ },
3931
+ {
3932
+ "epoch": 54.76510067114094,
3933
+ "grad_norm": 4.767118453979492,
3934
+ "learning_rate": 9.044334975369458e-05,
3935
+ "loss": 0.315,
3936
+ "step": 11220
3937
+ },
3938
+ {
3939
+ "epoch": 54.862721171446005,
3940
+ "grad_norm": 2.872119188308716,
3941
+ "learning_rate": 9.024630541871921e-05,
3942
+ "loss": 0.3032,
3943
+ "step": 11240
3944
+ },
3945
+ {
3946
+ "epoch": 54.96034167175107,
3947
+ "grad_norm": 3.499648094177246,
3948
+ "learning_rate": 9.004926108374385e-05,
3949
+ "loss": 0.3141,
3950
+ "step": 11260
3951
+ },
3952
+ {
3953
+ "epoch": 55.05796217205613,
3954
+ "grad_norm": 3.0000522136688232,
3955
+ "learning_rate": 8.985221674876848e-05,
3956
+ "loss": 0.3153,
3957
+ "step": 11280
3958
+ },
3959
+ {
3960
+ "epoch": 55.1555826723612,
3961
+ "grad_norm": 2.2861599922180176,
3962
+ "learning_rate": 8.96551724137931e-05,
3963
+ "loss": 0.3258,
3964
+ "step": 11300
3965
+ },
3966
+ {
3967
+ "epoch": 55.25320317266626,
3968
+ "grad_norm": 2.980668306350708,
3969
+ "learning_rate": 8.945812807881774e-05,
3970
+ "loss": 0.3099,
3971
+ "step": 11320
3972
+ },
3973
+ {
3974
+ "epoch": 55.35082367297132,
3975
+ "grad_norm": 2.286050319671631,
3976
+ "learning_rate": 8.926108374384237e-05,
3977
+ "loss": 0.2931,
3978
+ "step": 11340
3979
+ },
3980
+ {
3981
+ "epoch": 55.448444173276386,
3982
+ "grad_norm": 4.078646659851074,
3983
+ "learning_rate": 8.9064039408867e-05,
3984
+ "loss": 0.3142,
3985
+ "step": 11360
3986
+ },
3987
+ {
3988
+ "epoch": 55.546064673581455,
3989
+ "grad_norm": 2.150973320007324,
3990
+ "learning_rate": 8.886699507389164e-05,
3991
+ "loss": 0.2839,
3992
+ "step": 11380
3993
+ },
3994
+ {
3995
+ "epoch": 55.64368517388652,
3996
+ "grad_norm": 2.671983242034912,
3997
+ "learning_rate": 8.866995073891627e-05,
3998
+ "loss": 0.2981,
3999
+ "step": 11400
4000
+ },
4001
+ {
4002
+ "epoch": 55.74130567419158,
4003
+ "grad_norm": 3.199276924133301,
4004
+ "learning_rate": 8.847290640394089e-05,
4005
+ "loss": 0.304,
4006
+ "step": 11420
4007
+ },
4008
+ {
4009
+ "epoch": 55.83892617449664,
4010
+ "grad_norm": 2.477468967437744,
4011
+ "learning_rate": 8.827586206896552e-05,
4012
+ "loss": 0.3288,
4013
+ "step": 11440
4014
+ },
4015
+ {
4016
+ "epoch": 55.93654667480171,
4017
+ "grad_norm": 2.3130173683166504,
4018
+ "learning_rate": 8.807881773399015e-05,
4019
+ "loss": 0.321,
4020
+ "step": 11460
4021
+ },
4022
+ {
4023
+ "epoch": 56.034167175106774,
4024
+ "grad_norm": 3.1496715545654297,
4025
+ "learning_rate": 8.788177339901477e-05,
4026
+ "loss": 0.2992,
4027
+ "step": 11480
4028
+ },
4029
+ {
4030
+ "epoch": 56.131787675411836,
4031
+ "grad_norm": 3.3296494483947754,
4032
+ "learning_rate": 8.768472906403941e-05,
4033
+ "loss": 0.3023,
4034
+ "step": 11500
4035
+ },
4036
+ {
4037
+ "epoch": 56.2294081757169,
4038
+ "grad_norm": 2.992814540863037,
4039
+ "learning_rate": 8.748768472906404e-05,
4040
+ "loss": 0.291,
4041
+ "step": 11520
4042
+ },
4043
+ {
4044
+ "epoch": 56.32702867602197,
4045
+ "grad_norm": 2.981858015060425,
4046
+ "learning_rate": 8.729064039408867e-05,
4047
+ "loss": 0.2908,
4048
+ "step": 11540
4049
+ },
4050
+ {
4051
+ "epoch": 56.42464917632703,
4052
+ "grad_norm": 3.968040704727173,
4053
+ "learning_rate": 8.709359605911331e-05,
4054
+ "loss": 0.2963,
4055
+ "step": 11560
4056
+ },
4057
+ {
4058
+ "epoch": 56.52226967663209,
4059
+ "grad_norm": 3.6845455169677734,
4060
+ "learning_rate": 8.689655172413794e-05,
4061
+ "loss": 0.3137,
4062
+ "step": 11580
4063
+ },
4064
+ {
4065
+ "epoch": 56.619890176937155,
4066
+ "grad_norm": 3.8928792476654053,
4067
+ "learning_rate": 8.669950738916258e-05,
4068
+ "loss": 0.2971,
4069
+ "step": 11600
4070
+ },
4071
+ {
4072
+ "epoch": 56.717510677242224,
4073
+ "grad_norm": 2.064180374145508,
4074
+ "learning_rate": 8.65024630541872e-05,
4075
+ "loss": 0.3067,
4076
+ "step": 11620
4077
+ },
4078
+ {
4079
+ "epoch": 56.815131177547286,
4080
+ "grad_norm": 2.8107266426086426,
4081
+ "learning_rate": 8.630541871921183e-05,
4082
+ "loss": 0.2972,
4083
+ "step": 11640
4084
+ },
4085
+ {
4086
+ "epoch": 56.91275167785235,
4087
+ "grad_norm": 2.747004270553589,
4088
+ "learning_rate": 8.610837438423646e-05,
4089
+ "loss": 0.3183,
4090
+ "step": 11660
4091
+ },
4092
+ {
4093
+ "epoch": 57.01037217815741,
4094
+ "grad_norm": 2.0700557231903076,
4095
+ "learning_rate": 8.591133004926109e-05,
4096
+ "loss": 0.3075,
4097
+ "step": 11680
4098
+ },
4099
+ {
4100
+ "epoch": 57.10799267846248,
4101
+ "grad_norm": 3.1093757152557373,
4102
+ "learning_rate": 8.571428571428571e-05,
4103
+ "loss": 0.2756,
4104
+ "step": 11700
4105
+ },
4106
+ {
4107
+ "epoch": 57.20561317876754,
4108
+ "grad_norm": 2.34448504447937,
4109
+ "learning_rate": 8.551724137931035e-05,
4110
+ "loss": 0.2898,
4111
+ "step": 11720
4112
+ },
4113
+ {
4114
+ "epoch": 57.303233679072605,
4115
+ "grad_norm": 3.3790042400360107,
4116
+ "learning_rate": 8.532019704433498e-05,
4117
+ "loss": 0.3081,
4118
+ "step": 11740
4119
+ },
4120
+ {
4121
+ "epoch": 57.40085417937767,
4122
+ "grad_norm": 2.700956106185913,
4123
+ "learning_rate": 8.512315270935961e-05,
4124
+ "loss": 0.2915,
4125
+ "step": 11760
4126
+ },
4127
+ {
4128
+ "epoch": 57.49847467968274,
4129
+ "grad_norm": 2.6353628635406494,
4130
+ "learning_rate": 8.492610837438423e-05,
4131
+ "loss": 0.3063,
4132
+ "step": 11780
4133
+ },
4134
+ {
4135
+ "epoch": 57.5960951799878,
4136
+ "grad_norm": 2.56706166267395,
4137
+ "learning_rate": 8.472906403940886e-05,
4138
+ "loss": 0.3005,
4139
+ "step": 11800
4140
+ },
4141
+ {
4142
+ "epoch": 57.69371568029286,
4143
+ "grad_norm": 4.074772357940674,
4144
+ "learning_rate": 8.45320197044335e-05,
4145
+ "loss": 0.3007,
4146
+ "step": 11820
4147
+ },
4148
+ {
4149
+ "epoch": 57.79133618059792,
4150
+ "grad_norm": 2.786485433578491,
4151
+ "learning_rate": 8.433497536945813e-05,
4152
+ "loss": 0.3141,
4153
+ "step": 11840
4154
+ },
4155
+ {
4156
+ "epoch": 57.88895668090299,
4157
+ "grad_norm": 2.9513659477233887,
4158
+ "learning_rate": 8.413793103448277e-05,
4159
+ "loss": 0.3216,
4160
+ "step": 11860
4161
+ },
4162
+ {
4163
+ "epoch": 57.986577181208055,
4164
+ "grad_norm": 3.126004219055176,
4165
+ "learning_rate": 8.39408866995074e-05,
4166
+ "loss": 0.3,
4167
+ "step": 11880
4168
+ },
4169
+ {
4170
+ "epoch": 58.08419768151312,
4171
+ "grad_norm": 2.20534348487854,
4172
+ "learning_rate": 8.374384236453202e-05,
4173
+ "loss": 0.2891,
4174
+ "step": 11900
4175
+ },
4176
+ {
4177
+ "epoch": 58.18181818181818,
4178
+ "grad_norm": 4.753482818603516,
4179
+ "learning_rate": 8.354679802955665e-05,
4180
+ "loss": 0.3019,
4181
+ "step": 11920
4182
+ },
4183
+ {
4184
+ "epoch": 58.27943868212325,
4185
+ "grad_norm": 3.1038873195648193,
4186
+ "learning_rate": 8.334975369458129e-05,
4187
+ "loss": 0.283,
4188
+ "step": 11940
4189
+ },
4190
+ {
4191
+ "epoch": 58.37705918242831,
4192
+ "grad_norm": 2.9366559982299805,
4193
+ "learning_rate": 8.315270935960592e-05,
4194
+ "loss": 0.302,
4195
+ "step": 11960
4196
+ },
4197
+ {
4198
+ "epoch": 58.474679682733374,
4199
+ "grad_norm": 3.008777379989624,
4200
+ "learning_rate": 8.295566502463055e-05,
4201
+ "loss": 0.3256,
4202
+ "step": 11980
4203
+ },
4204
+ {
4205
+ "epoch": 58.572300183038436,
4206
+ "grad_norm": 2.7105023860931396,
4207
+ "learning_rate": 8.275862068965517e-05,
4208
+ "loss": 0.2959,
4209
+ "step": 12000
4210
+ },
4211
+ {
4212
+ "epoch": 58.669920683343506,
4213
+ "grad_norm": 2.762347936630249,
4214
+ "learning_rate": 8.25615763546798e-05,
4215
+ "loss": 0.2826,
4216
+ "step": 12020
4217
+ },
4218
+ {
4219
+ "epoch": 58.76754118364857,
4220
+ "grad_norm": 2.8366870880126953,
4221
+ "learning_rate": 8.236453201970443e-05,
4222
+ "loss": 0.302,
4223
+ "step": 12040
4224
+ },
4225
+ {
4226
+ "epoch": 58.86516168395363,
4227
+ "grad_norm": 2.721994400024414,
4228
+ "learning_rate": 8.216748768472907e-05,
4229
+ "loss": 0.2966,
4230
+ "step": 12060
4231
+ },
4232
+ {
4233
+ "epoch": 58.96278218425869,
4234
+ "grad_norm": 2.988464117050171,
4235
+ "learning_rate": 8.19704433497537e-05,
4236
+ "loss": 0.2899,
4237
+ "step": 12080
4238
+ },
4239
+ {
4240
+ "epoch": 59.060402684563755,
4241
+ "grad_norm": 2.6657352447509766,
4242
+ "learning_rate": 8.177339901477834e-05,
4243
+ "loss": 0.2889,
4244
+ "step": 12100
4245
+ },
4246
+ {
4247
+ "epoch": 59.158023184868824,
4248
+ "grad_norm": 3.703511953353882,
4249
+ "learning_rate": 8.157635467980296e-05,
4250
+ "loss": 0.2794,
4251
+ "step": 12120
4252
+ },
4253
+ {
4254
+ "epoch": 59.25564368517389,
4255
+ "grad_norm": 2.9937832355499268,
4256
+ "learning_rate": 8.137931034482759e-05,
4257
+ "loss": 0.2896,
4258
+ "step": 12140
4259
+ },
4260
+ {
4261
+ "epoch": 59.35326418547895,
4262
+ "grad_norm": 3.188159704208374,
4263
+ "learning_rate": 8.118226600985223e-05,
4264
+ "loss": 0.2885,
4265
+ "step": 12160
4266
+ },
4267
+ {
4268
+ "epoch": 59.45088468578401,
4269
+ "grad_norm": 2.8724703788757324,
4270
+ "learning_rate": 8.098522167487686e-05,
4271
+ "loss": 0.2959,
4272
+ "step": 12180
4273
+ },
4274
+ {
4275
+ "epoch": 59.54850518608908,
4276
+ "grad_norm": 3.351435422897339,
4277
+ "learning_rate": 8.078817733990148e-05,
4278
+ "loss": 0.2867,
4279
+ "step": 12200
4280
+ },
4281
+ {
4282
+ "epoch": 59.64612568639414,
4283
+ "grad_norm": 2.5625758171081543,
4284
+ "learning_rate": 8.059113300492611e-05,
4285
+ "loss": 0.3042,
4286
+ "step": 12220
4287
+ },
4288
+ {
4289
+ "epoch": 59.743746186699205,
4290
+ "grad_norm": 3.3796396255493164,
4291
+ "learning_rate": 8.039408866995074e-05,
4292
+ "loss": 0.301,
4293
+ "step": 12240
4294
+ },
4295
+ {
4296
+ "epoch": 59.84136668700427,
4297
+ "grad_norm": 2.787851572036743,
4298
+ "learning_rate": 8.019704433497537e-05,
4299
+ "loss": 0.3072,
4300
+ "step": 12260
4301
+ },
4302
+ {
4303
+ "epoch": 59.93898718730934,
4304
+ "grad_norm": 2.9104974269866943,
4305
+ "learning_rate": 8e-05,
4306
+ "loss": 0.3059,
4307
+ "step": 12280
4308
+ },
4309
+ {
4310
+ "epoch": 60.0366076876144,
4311
+ "grad_norm": 2.957249879837036,
4312
+ "learning_rate": 7.980295566502463e-05,
4313
+ "loss": 0.2965,
4314
+ "step": 12300
4315
+ },
4316
+ {
4317
+ "epoch": 60.13422818791946,
4318
+ "grad_norm": 2.2982118129730225,
4319
+ "learning_rate": 7.960591133004926e-05,
4320
+ "loss": 0.2703,
4321
+ "step": 12320
4322
+ },
4323
+ {
4324
+ "epoch": 60.231848688224524,
4325
+ "grad_norm": 3.548534870147705,
4326
+ "learning_rate": 7.940886699507389e-05,
4327
+ "loss": 0.2843,
4328
+ "step": 12340
4329
+ },
4330
+ {
4331
+ "epoch": 60.32946918852959,
4332
+ "grad_norm": 2.3399384021759033,
4333
+ "learning_rate": 7.921182266009853e-05,
4334
+ "loss": 0.2855,
4335
+ "step": 12360
4336
+ },
4337
+ {
4338
+ "epoch": 60.427089688834656,
4339
+ "grad_norm": 3.4186365604400635,
4340
+ "learning_rate": 7.901477832512316e-05,
4341
+ "loss": 0.2942,
4342
+ "step": 12380
4343
+ },
4344
+ {
4345
+ "epoch": 60.52471018913972,
4346
+ "grad_norm": 2.572951316833496,
4347
+ "learning_rate": 7.88177339901478e-05,
4348
+ "loss": 0.2918,
4349
+ "step": 12400
4350
+ },
4351
+ {
4352
+ "epoch": 60.62233068944478,
4353
+ "grad_norm": 2.1056010723114014,
4354
+ "learning_rate": 7.862068965517242e-05,
4355
+ "loss": 0.3051,
4356
+ "step": 12420
4357
+ },
4358
+ {
4359
+ "epoch": 60.71995118974985,
4360
+ "grad_norm": 4.122783184051514,
4361
+ "learning_rate": 7.842364532019705e-05,
4362
+ "loss": 0.2811,
4363
+ "step": 12440
4364
+ },
4365
+ {
4366
+ "epoch": 60.81757169005491,
4367
+ "grad_norm": 2.3634865283966064,
4368
+ "learning_rate": 7.822660098522168e-05,
4369
+ "loss": 0.3063,
4370
+ "step": 12460
4371
+ },
4372
+ {
4373
+ "epoch": 60.915192190359974,
4374
+ "grad_norm": 3.362290143966675,
4375
+ "learning_rate": 7.80295566502463e-05,
4376
+ "loss": 0.2954,
4377
+ "step": 12480
4378
+ },
4379
+ {
4380
+ "epoch": 61.01281269066504,
4381
+ "grad_norm": 4.63106632232666,
4382
+ "learning_rate": 7.783251231527095e-05,
4383
+ "loss": 0.2855,
4384
+ "step": 12500
4385
+ },
4386
+ {
4387
+ "epoch": 61.110433190970106,
4388
+ "grad_norm": 3.6261041164398193,
4389
+ "learning_rate": 7.763546798029557e-05,
4390
+ "loss": 0.2792,
4391
+ "step": 12520
4392
+ },
4393
+ {
4394
+ "epoch": 61.20805369127517,
4395
+ "grad_norm": 2.869415760040283,
4396
+ "learning_rate": 7.74384236453202e-05,
4397
+ "loss": 0.2833,
4398
+ "step": 12540
4399
+ },
4400
+ {
4401
+ "epoch": 61.30567419158023,
4402
+ "grad_norm": 2.7370972633361816,
4403
+ "learning_rate": 7.724137931034483e-05,
4404
+ "loss": 0.2997,
4405
+ "step": 12560
4406
+ },
4407
+ {
4408
+ "epoch": 61.40329469188529,
4409
+ "grad_norm": 3.5397825241088867,
4410
+ "learning_rate": 7.704433497536945e-05,
4411
+ "loss": 0.2799,
4412
+ "step": 12580
4413
+ },
4414
+ {
4415
+ "epoch": 61.50091519219036,
4416
+ "grad_norm": 2.3903191089630127,
4417
+ "learning_rate": 7.684729064039408e-05,
4418
+ "loss": 0.2857,
4419
+ "step": 12600
4420
+ },
4421
+ {
4422
+ "epoch": 61.598535692495425,
4423
+ "grad_norm": 3.3589389324188232,
4424
+ "learning_rate": 7.665024630541872e-05,
4425
+ "loss": 0.2823,
4426
+ "step": 12620
4427
+ },
4428
+ {
4429
+ "epoch": 61.69615619280049,
4430
+ "grad_norm": 4.420291423797607,
4431
+ "learning_rate": 7.645320197044336e-05,
4432
+ "loss": 0.2895,
4433
+ "step": 12640
4434
+ },
4435
+ {
4436
+ "epoch": 61.79377669310555,
4437
+ "grad_norm": 3.060859441757202,
4438
+ "learning_rate": 7.625615763546799e-05,
4439
+ "loss": 0.2859,
4440
+ "step": 12660
4441
+ },
4442
+ {
4443
+ "epoch": 61.89139719341062,
4444
+ "grad_norm": 3.5927321910858154,
4445
+ "learning_rate": 7.605911330049262e-05,
4446
+ "loss": 0.2954,
4447
+ "step": 12680
4448
+ },
4449
+ {
4450
+ "epoch": 61.98901769371568,
4451
+ "grad_norm": 2.7577738761901855,
4452
+ "learning_rate": 7.586206896551724e-05,
4453
+ "loss": 0.2832,
4454
+ "step": 12700
4455
+ },
4456
+ {
4457
+ "epoch": 62.08663819402074,
4458
+ "grad_norm": 4.519462585449219,
4459
+ "learning_rate": 7.566502463054188e-05,
4460
+ "loss": 0.2695,
4461
+ "step": 12720
4462
+ },
4463
+ {
4464
+ "epoch": 62.184258694325806,
4465
+ "grad_norm": 2.231842279434204,
4466
+ "learning_rate": 7.546798029556651e-05,
4467
+ "loss": 0.2894,
4468
+ "step": 12740
4469
+ },
4470
+ {
4471
+ "epoch": 62.281879194630875,
4472
+ "grad_norm": 3.5176825523376465,
4473
+ "learning_rate": 7.527093596059114e-05,
4474
+ "loss": 0.2749,
4475
+ "step": 12760
4476
+ },
4477
+ {
4478
+ "epoch": 62.37949969493594,
4479
+ "grad_norm": 3.319891929626465,
4480
+ "learning_rate": 7.507389162561577e-05,
4481
+ "loss": 0.2909,
4482
+ "step": 12780
4483
+ },
4484
+ {
4485
+ "epoch": 62.477120195241,
4486
+ "grad_norm": 2.778862237930298,
4487
+ "learning_rate": 7.487684729064039e-05,
4488
+ "loss": 0.2816,
4489
+ "step": 12800
4490
+ },
4491
+ {
4492
+ "epoch": 62.57474069554606,
4493
+ "grad_norm": 2.7136170864105225,
4494
+ "learning_rate": 7.467980295566502e-05,
4495
+ "loss": 0.286,
4496
+ "step": 12820
4497
+ },
4498
+ {
4499
+ "epoch": 62.67236119585113,
4500
+ "grad_norm": 2.841850519180298,
4501
+ "learning_rate": 7.448275862068966e-05,
4502
+ "loss": 0.3078,
4503
+ "step": 12840
4504
+ },
4505
+ {
4506
+ "epoch": 62.769981696156194,
4507
+ "grad_norm": 3.159632682800293,
4508
+ "learning_rate": 7.428571428571429e-05,
4509
+ "loss": 0.2693,
4510
+ "step": 12860
4511
+ },
4512
+ {
4513
+ "epoch": 62.867602196461256,
4514
+ "grad_norm": 2.638611078262329,
4515
+ "learning_rate": 7.408866995073891e-05,
4516
+ "loss": 0.2838,
4517
+ "step": 12880
4518
+ },
4519
+ {
4520
+ "epoch": 62.96522269676632,
4521
+ "grad_norm": 3.453857421875,
4522
+ "learning_rate": 7.389162561576355e-05,
4523
+ "loss": 0.2892,
4524
+ "step": 12900
4525
+ },
4526
+ {
4527
+ "epoch": 63.06284319707139,
4528
+ "grad_norm": 3.6586861610412598,
4529
+ "learning_rate": 7.369458128078818e-05,
4530
+ "loss": 0.2626,
4531
+ "step": 12920
4532
+ },
4533
+ {
4534
+ "epoch": 63.16046369737645,
4535
+ "grad_norm": 3.8204469680786133,
4536
+ "learning_rate": 7.349753694581281e-05,
4537
+ "loss": 0.2834,
4538
+ "step": 12940
4539
+ },
4540
+ {
4541
+ "epoch": 63.25808419768151,
4542
+ "grad_norm": 1.7463505268096924,
4543
+ "learning_rate": 7.330049261083745e-05,
4544
+ "loss": 0.2909,
4545
+ "step": 12960
4546
+ },
4547
+ {
4548
+ "epoch": 63.355704697986575,
4549
+ "grad_norm": 1.687853217124939,
4550
+ "learning_rate": 7.310344827586208e-05,
4551
+ "loss": 0.2892,
4552
+ "step": 12980
4553
+ },
4554
+ {
4555
+ "epoch": 63.453325198291644,
4556
+ "grad_norm": 2.835196018218994,
4557
+ "learning_rate": 7.29064039408867e-05,
4558
+ "loss": 0.2763,
4559
+ "step": 13000
4560
+ },
4561
+ {
4562
+ "epoch": 63.550945698596706,
4563
+ "grad_norm": 3.77742862701416,
4564
+ "learning_rate": 7.270935960591133e-05,
4565
+ "loss": 0.2834,
4566
+ "step": 13020
4567
+ },
4568
+ {
4569
+ "epoch": 63.64856619890177,
4570
+ "grad_norm": 2.1246883869171143,
4571
+ "learning_rate": 7.251231527093596e-05,
4572
+ "loss": 0.2859,
4573
+ "step": 13040
4574
+ },
4575
+ {
4576
+ "epoch": 63.74618669920683,
4577
+ "grad_norm": 3.592597246170044,
4578
+ "learning_rate": 7.23152709359606e-05,
4579
+ "loss": 0.2865,
4580
+ "step": 13060
4581
+ },
4582
+ {
4583
+ "epoch": 63.8438071995119,
4584
+ "grad_norm": 2.8954873085021973,
4585
+ "learning_rate": 7.211822660098523e-05,
4586
+ "loss": 0.2855,
4587
+ "step": 13080
4588
+ },
4589
+ {
4590
+ "epoch": 63.94142769981696,
4591
+ "grad_norm": 2.266686201095581,
4592
+ "learning_rate": 7.192118226600985e-05,
4593
+ "loss": 0.2814,
4594
+ "step": 13100
4595
+ },
4596
+ {
4597
+ "epoch": 64.03904820012202,
4598
+ "grad_norm": 1.9330942630767822,
4599
+ "learning_rate": 7.172413793103448e-05,
4600
+ "loss": 0.2832,
4601
+ "step": 13120
4602
+ },
4603
+ {
4604
+ "epoch": 64.1366687004271,
4605
+ "grad_norm": 4.008347511291504,
4606
+ "learning_rate": 7.152709359605912e-05,
4607
+ "loss": 0.2762,
4608
+ "step": 13140
4609
+ },
4610
+ {
4611
+ "epoch": 64.23428920073215,
4612
+ "grad_norm": 2.2452552318573,
4613
+ "learning_rate": 7.133004926108375e-05,
4614
+ "loss": 0.269,
4615
+ "step": 13160
4616
+ },
4617
+ {
4618
+ "epoch": 64.33190970103722,
4619
+ "grad_norm": 7.247570991516113,
4620
+ "learning_rate": 7.113300492610839e-05,
4621
+ "loss": 0.2652,
4622
+ "step": 13180
4623
+ },
4624
+ {
4625
+ "epoch": 64.42953020134229,
4626
+ "grad_norm": 4.846076488494873,
4627
+ "learning_rate": 7.093596059113302e-05,
4628
+ "loss": 0.2766,
4629
+ "step": 13200
4630
+ },
4631
+ {
4632
+ "epoch": 64.52715070164734,
4633
+ "grad_norm": 3.444746732711792,
4634
+ "learning_rate": 7.073891625615764e-05,
4635
+ "loss": 0.2789,
4636
+ "step": 13220
4637
+ },
4638
+ {
4639
+ "epoch": 64.62477120195241,
4640
+ "grad_norm": 2.506460428237915,
4641
+ "learning_rate": 7.054187192118227e-05,
4642
+ "loss": 0.279,
4643
+ "step": 13240
4644
+ },
4645
+ {
4646
+ "epoch": 64.72239170225747,
4647
+ "grad_norm": 3.3973569869995117,
4648
+ "learning_rate": 7.03448275862069e-05,
4649
+ "loss": 0.2887,
4650
+ "step": 13260
4651
+ },
4652
+ {
4653
+ "epoch": 64.82001220256254,
4654
+ "grad_norm": 3.14697265625,
4655
+ "learning_rate": 7.014778325123154e-05,
4656
+ "loss": 0.2813,
4657
+ "step": 13280
4658
+ },
4659
+ {
4660
+ "epoch": 64.9176327028676,
4661
+ "grad_norm": 4.694430828094482,
4662
+ "learning_rate": 6.995073891625616e-05,
4663
+ "loss": 0.3026,
4664
+ "step": 13300
4665
+ },
4666
+ {
4667
+ "epoch": 65.01525320317266,
4668
+ "grad_norm": 2.2463550567626953,
4669
+ "learning_rate": 6.975369458128079e-05,
4670
+ "loss": 0.2739,
4671
+ "step": 13320
4672
+ },
4673
+ {
4674
+ "epoch": 65.11287370347773,
4675
+ "grad_norm": 2.907592535018921,
4676
+ "learning_rate": 6.955665024630542e-05,
4677
+ "loss": 0.2783,
4678
+ "step": 13340
4679
+ },
4680
+ {
4681
+ "epoch": 65.2104942037828,
4682
+ "grad_norm": 2.9708614349365234,
4683
+ "learning_rate": 6.935960591133005e-05,
4684
+ "loss": 0.2718,
4685
+ "step": 13360
4686
+ },
4687
+ {
4688
+ "epoch": 65.30811470408786,
4689
+ "grad_norm": 2.7227044105529785,
4690
+ "learning_rate": 6.916256157635467e-05,
4691
+ "loss": 0.2615,
4692
+ "step": 13380
4693
+ },
4694
+ {
4695
+ "epoch": 65.40573520439293,
4696
+ "grad_norm": 2.3960001468658447,
4697
+ "learning_rate": 6.896551724137931e-05,
4698
+ "loss": 0.2822,
4699
+ "step": 13400
4700
+ },
4701
+ {
4702
+ "epoch": 65.50335570469798,
4703
+ "grad_norm": 2.032240629196167,
4704
+ "learning_rate": 6.876847290640394e-05,
4705
+ "loss": 0.282,
4706
+ "step": 13420
4707
+ },
4708
+ {
4709
+ "epoch": 65.60097620500305,
4710
+ "grad_norm": 2.5334010124206543,
4711
+ "learning_rate": 6.857142857142858e-05,
4712
+ "loss": 0.2771,
4713
+ "step": 13440
4714
+ },
4715
+ {
4716
+ "epoch": 65.69859670530812,
4717
+ "grad_norm": 7.930431842803955,
4718
+ "learning_rate": 6.837438423645321e-05,
4719
+ "loss": 0.2878,
4720
+ "step": 13460
4721
+ },
4722
+ {
4723
+ "epoch": 65.79621720561317,
4724
+ "grad_norm": 2.709092378616333,
4725
+ "learning_rate": 6.817733990147784e-05,
4726
+ "loss": 0.2797,
4727
+ "step": 13480
4728
+ },
4729
+ {
4730
+ "epoch": 65.89383770591824,
4731
+ "grad_norm": 4.455546855926514,
4732
+ "learning_rate": 6.798029556650246e-05,
4733
+ "loss": 0.2803,
4734
+ "step": 13500
4735
+ },
4736
+ {
4737
+ "epoch": 65.99145820622331,
4738
+ "grad_norm": 4.6384077072143555,
4739
+ "learning_rate": 6.77832512315271e-05,
4740
+ "loss": 0.2764,
4741
+ "step": 13520
4742
+ },
4743
+ {
4744
+ "epoch": 66.08907870652837,
4745
+ "grad_norm": 2.7529897689819336,
4746
+ "learning_rate": 6.758620689655173e-05,
4747
+ "loss": 0.2614,
4748
+ "step": 13540
4749
+ },
4750
+ {
4751
+ "epoch": 66.18669920683344,
4752
+ "grad_norm": 2.0837860107421875,
4753
+ "learning_rate": 6.738916256157636e-05,
4754
+ "loss": 0.2696,
4755
+ "step": 13560
4756
+ },
4757
+ {
4758
+ "epoch": 66.2843197071385,
4759
+ "grad_norm": 1.6655378341674805,
4760
+ "learning_rate": 6.719211822660098e-05,
4761
+ "loss": 0.2781,
4762
+ "step": 13580
4763
+ },
4764
+ {
4765
+ "epoch": 66.38194020744356,
4766
+ "grad_norm": 1.8926398754119873,
4767
+ "learning_rate": 6.699507389162561e-05,
4768
+ "loss": 0.273,
4769
+ "step": 13600
4770
+ },
4771
+ {
4772
+ "epoch": 66.47956070774863,
4773
+ "grad_norm": 1.8903833627700806,
4774
+ "learning_rate": 6.679802955665025e-05,
4775
+ "loss": 0.2683,
4776
+ "step": 13620
4777
+ },
4778
+ {
4779
+ "epoch": 66.57718120805369,
4780
+ "grad_norm": 3.0182383060455322,
4781
+ "learning_rate": 6.660098522167488e-05,
4782
+ "loss": 0.2685,
4783
+ "step": 13640
4784
+ },
4785
+ {
4786
+ "epoch": 66.67480170835876,
4787
+ "grad_norm": 3.0081100463867188,
4788
+ "learning_rate": 6.64039408866995e-05,
4789
+ "loss": 0.2915,
4790
+ "step": 13660
4791
+ },
4792
+ {
4793
+ "epoch": 66.77242220866383,
4794
+ "grad_norm": 2.345440149307251,
4795
+ "learning_rate": 6.620689655172415e-05,
4796
+ "loss": 0.2707,
4797
+ "step": 13680
4798
+ },
4799
+ {
4800
+ "epoch": 66.87004270896888,
4801
+ "grad_norm": 2.430608034133911,
4802
+ "learning_rate": 6.600985221674877e-05,
4803
+ "loss": 0.2675,
4804
+ "step": 13700
4805
+ },
4806
+ {
4807
+ "epoch": 66.96766320927395,
4808
+ "grad_norm": 4.09646463394165,
4809
+ "learning_rate": 6.58128078817734e-05,
4810
+ "loss": 0.2886,
4811
+ "step": 13720
4812
+ },
4813
+ {
4814
+ "epoch": 67.065283709579,
4815
+ "grad_norm": 2.696843147277832,
4816
+ "learning_rate": 6.561576354679804e-05,
4817
+ "loss": 0.2743,
4818
+ "step": 13740
4819
+ },
4820
+ {
4821
+ "epoch": 67.16290420988408,
4822
+ "grad_norm": 1.8098782300949097,
4823
+ "learning_rate": 6.541871921182267e-05,
4824
+ "loss": 0.2629,
4825
+ "step": 13760
4826
+ },
4827
+ {
4828
+ "epoch": 67.26052471018915,
4829
+ "grad_norm": 2.604454278945923,
4830
+ "learning_rate": 6.52216748768473e-05,
4831
+ "loss": 0.2701,
4832
+ "step": 13780
4833
+ },
4834
+ {
4835
+ "epoch": 67.3581452104942,
4836
+ "grad_norm": 2.6400327682495117,
4837
+ "learning_rate": 6.502463054187192e-05,
4838
+ "loss": 0.2791,
4839
+ "step": 13800
4840
+ },
4841
+ {
4842
+ "epoch": 67.45576571079927,
4843
+ "grad_norm": 2.6029961109161377,
4844
+ "learning_rate": 6.482758620689655e-05,
4845
+ "loss": 0.2753,
4846
+ "step": 13820
4847
+ },
4848
+ {
4849
+ "epoch": 67.55338621110434,
4850
+ "grad_norm": 2.493805170059204,
4851
+ "learning_rate": 6.463054187192119e-05,
4852
+ "loss": 0.2654,
4853
+ "step": 13840
4854
+ },
4855
+ {
4856
+ "epoch": 67.6510067114094,
4857
+ "grad_norm": 3.1555075645446777,
4858
+ "learning_rate": 6.443349753694582e-05,
4859
+ "loss": 0.2701,
4860
+ "step": 13860
4861
+ },
4862
+ {
4863
+ "epoch": 67.74862721171446,
4864
+ "grad_norm": 4.280105113983154,
4865
+ "learning_rate": 6.423645320197044e-05,
4866
+ "loss": 0.2732,
4867
+ "step": 13880
4868
+ },
4869
+ {
4870
+ "epoch": 67.84624771201952,
4871
+ "grad_norm": 2.8167061805725098,
4872
+ "learning_rate": 6.403940886699507e-05,
4873
+ "loss": 0.2755,
4874
+ "step": 13900
4875
+ },
4876
+ {
4877
+ "epoch": 67.94386821232459,
4878
+ "grad_norm": 3.5046565532684326,
4879
+ "learning_rate": 6.38423645320197e-05,
4880
+ "loss": 0.2831,
4881
+ "step": 13920
4882
+ },
4883
+ {
4884
+ "epoch": 68.04148871262966,
4885
+ "grad_norm": 2.4737610816955566,
4886
+ "learning_rate": 6.364532019704434e-05,
4887
+ "loss": 0.2737,
4888
+ "step": 13940
4889
+ },
4890
+ {
4891
+ "epoch": 68.13910921293471,
4892
+ "grad_norm": 1.996193766593933,
4893
+ "learning_rate": 6.344827586206897e-05,
4894
+ "loss": 0.2637,
4895
+ "step": 13960
4896
+ },
4897
+ {
4898
+ "epoch": 68.23672971323978,
4899
+ "grad_norm": 2.7088236808776855,
4900
+ "learning_rate": 6.325123152709361e-05,
4901
+ "loss": 0.2683,
4902
+ "step": 13980
4903
+ },
4904
+ {
4905
+ "epoch": 68.33435021354484,
4906
+ "grad_norm": 2.344050168991089,
4907
+ "learning_rate": 6.305418719211823e-05,
4908
+ "loss": 0.2685,
4909
+ "step": 14000
4910
+ },
4911
+ {
4912
+ "epoch": 68.4319707138499,
4913
+ "grad_norm": 3.3628969192504883,
4914
+ "learning_rate": 6.285714285714286e-05,
4915
+ "loss": 0.2728,
4916
+ "step": 14020
4917
+ },
4918
+ {
4919
+ "epoch": 68.52959121415498,
4920
+ "grad_norm": 2.8613572120666504,
4921
+ "learning_rate": 6.266009852216749e-05,
4922
+ "loss": 0.2668,
4923
+ "step": 14040
4924
+ },
4925
+ {
4926
+ "epoch": 68.62721171446003,
4927
+ "grad_norm": 2.752930164337158,
4928
+ "learning_rate": 6.246305418719212e-05,
4929
+ "loss": 0.2753,
4930
+ "step": 14060
4931
+ },
4932
+ {
4933
+ "epoch": 68.7248322147651,
4934
+ "grad_norm": 2.426806926727295,
4935
+ "learning_rate": 6.226600985221676e-05,
4936
+ "loss": 0.2545,
4937
+ "step": 14080
4938
+ },
4939
+ {
4940
+ "epoch": 68.82245271507017,
4941
+ "grad_norm": 2.4970877170562744,
4942
+ "learning_rate": 6.206896551724138e-05,
4943
+ "loss": 0.2733,
4944
+ "step": 14100
4945
+ },
4946
+ {
4947
+ "epoch": 68.92007321537523,
4948
+ "grad_norm": 2.6764674186706543,
4949
+ "learning_rate": 6.187192118226601e-05,
4950
+ "loss": 0.2726,
4951
+ "step": 14120
4952
+ },
4953
+ {
4954
+ "epoch": 69.0176937156803,
4955
+ "grad_norm": 2.3702871799468994,
4956
+ "learning_rate": 6.167487684729064e-05,
4957
+ "loss": 0.2701,
4958
+ "step": 14140
4959
+ },
4960
+ {
4961
+ "epoch": 69.11531421598535,
4962
+ "grad_norm": 3.5141944885253906,
4963
+ "learning_rate": 6.147783251231526e-05,
4964
+ "loss": 0.2643,
4965
+ "step": 14160
4966
+ },
4967
+ {
4968
+ "epoch": 69.21293471629042,
4969
+ "grad_norm": 2.7750911712646484,
4970
+ "learning_rate": 6.12807881773399e-05,
4971
+ "loss": 0.248,
4972
+ "step": 14180
4973
+ },
4974
+ {
4975
+ "epoch": 69.31055521659549,
4976
+ "grad_norm": 4.1003217697143555,
4977
+ "learning_rate": 6.108374384236453e-05,
4978
+ "loss": 0.2618,
4979
+ "step": 14200
4980
+ },
4981
+ {
4982
+ "epoch": 69.40817571690054,
4983
+ "grad_norm": 2.183353900909424,
4984
+ "learning_rate": 6.0886699507389166e-05,
4985
+ "loss": 0.2618,
4986
+ "step": 14220
4987
+ },
4988
+ {
4989
+ "epoch": 69.50579621720561,
4990
+ "grad_norm": 2.447449207305908,
4991
+ "learning_rate": 6.068965517241379e-05,
4992
+ "loss": 0.284,
4993
+ "step": 14240
4994
+ },
4995
+ {
4996
+ "epoch": 69.60341671751068,
4997
+ "grad_norm": 2.466543674468994,
4998
+ "learning_rate": 6.049261083743843e-05,
4999
+ "loss": 0.269,
5000
+ "step": 14260
5001
+ },
5002
+ {
5003
+ "epoch": 69.70103721781574,
5004
+ "grad_norm": 3.8052902221679688,
5005
+ "learning_rate": 6.0295566502463054e-05,
5006
+ "loss": 0.2681,
5007
+ "step": 14280
5008
+ },
5009
+ {
5010
+ "epoch": 69.79865771812081,
5011
+ "grad_norm": 3.1913719177246094,
5012
+ "learning_rate": 6.0098522167487695e-05,
5013
+ "loss": 0.2677,
5014
+ "step": 14300
5015
+ },
5016
+ {
5017
+ "epoch": 69.89627821842586,
5018
+ "grad_norm": 1.6767873764038086,
5019
+ "learning_rate": 5.990147783251232e-05,
5020
+ "loss": 0.2739,
5021
+ "step": 14320
5022
+ },
5023
+ {
5024
+ "epoch": 69.99389871873093,
5025
+ "grad_norm": 2.805734634399414,
5026
+ "learning_rate": 5.970443349753695e-05,
5027
+ "loss": 0.2686,
5028
+ "step": 14340
5029
+ },
5030
+ {
5031
+ "epoch": 70.091519219036,
5032
+ "grad_norm": 2.671316146850586,
5033
+ "learning_rate": 5.9507389162561576e-05,
5034
+ "loss": 0.2558,
5035
+ "step": 14360
5036
+ },
5037
+ {
5038
+ "epoch": 70.18913971934106,
5039
+ "grad_norm": 2.5105350017547607,
5040
+ "learning_rate": 5.93103448275862e-05,
5041
+ "loss": 0.2692,
5042
+ "step": 14380
5043
+ },
5044
+ {
5045
+ "epoch": 70.28676021964613,
5046
+ "grad_norm": 2.0773072242736816,
5047
+ "learning_rate": 5.9113300492610844e-05,
5048
+ "loss": 0.266,
5049
+ "step": 14400
5050
+ },
5051
+ {
5052
+ "epoch": 70.3843807199512,
5053
+ "grad_norm": 2.2632055282592773,
5054
+ "learning_rate": 5.891625615763548e-05,
5055
+ "loss": 0.2624,
5056
+ "step": 14420
5057
+ },
5058
+ {
5059
+ "epoch": 70.48200122025625,
5060
+ "grad_norm": 3.4696826934814453,
5061
+ "learning_rate": 5.8719211822660105e-05,
5062
+ "loss": 0.2616,
5063
+ "step": 14440
5064
+ },
5065
+ {
5066
+ "epoch": 70.57962172056132,
5067
+ "grad_norm": 2.471937417984009,
5068
+ "learning_rate": 5.852216748768473e-05,
5069
+ "loss": 0.2534,
5070
+ "step": 14460
5071
+ },
5072
+ {
5073
+ "epoch": 70.67724222086638,
5074
+ "grad_norm": 2.4318599700927734,
5075
+ "learning_rate": 5.832512315270936e-05,
5076
+ "loss": 0.2661,
5077
+ "step": 14480
5078
+ },
5079
+ {
5080
+ "epoch": 70.77486272117144,
5081
+ "grad_norm": 2.773090362548828,
5082
+ "learning_rate": 5.8128078817733986e-05,
5083
+ "loss": 0.283,
5084
+ "step": 14500
5085
+ },
5086
+ {
5087
+ "epoch": 70.87248322147651,
5088
+ "grad_norm": 2.120820999145508,
5089
+ "learning_rate": 5.7931034482758627e-05,
5090
+ "loss": 0.2668,
5091
+ "step": 14520
5092
+ },
5093
+ {
5094
+ "epoch": 70.97010372178157,
5095
+ "grad_norm": 2.614382028579712,
5096
+ "learning_rate": 5.7733990147783254e-05,
5097
+ "loss": 0.2722,
5098
+ "step": 14540
5099
+ },
5100
+ {
5101
+ "epoch": 71.06772422208664,
5102
+ "grad_norm": 2.954516649246216,
5103
+ "learning_rate": 5.753694581280789e-05,
5104
+ "loss": 0.2571,
5105
+ "step": 14560
5106
+ },
5107
+ {
5108
+ "epoch": 71.16534472239171,
5109
+ "grad_norm": 2.9351367950439453,
5110
+ "learning_rate": 5.7339901477832515e-05,
5111
+ "loss": 0.2659,
5112
+ "step": 14580
5113
+ },
5114
+ {
5115
+ "epoch": 71.26296522269676,
5116
+ "grad_norm": 2.757805347442627,
5117
+ "learning_rate": 5.714285714285714e-05,
5118
+ "loss": 0.2461,
5119
+ "step": 14600
5120
+ },
5121
+ {
5122
+ "epoch": 71.36058572300183,
5123
+ "grad_norm": 3.4546825885772705,
5124
+ "learning_rate": 5.694581280788177e-05,
5125
+ "loss": 0.2655,
5126
+ "step": 14620
5127
+ },
5128
+ {
5129
+ "epoch": 71.45820622330689,
5130
+ "grad_norm": 2.822056531906128,
5131
+ "learning_rate": 5.674876847290641e-05,
5132
+ "loss": 0.2542,
5133
+ "step": 14640
5134
+ },
5135
+ {
5136
+ "epoch": 71.55582672361196,
5137
+ "grad_norm": 2.4004786014556885,
5138
+ "learning_rate": 5.6551724137931037e-05,
5139
+ "loss": 0.2489,
5140
+ "step": 14660
5141
+ },
5142
+ {
5143
+ "epoch": 71.65344722391703,
5144
+ "grad_norm": 3.2715816497802734,
5145
+ "learning_rate": 5.635467980295567e-05,
5146
+ "loss": 0.2669,
5147
+ "step": 14680
5148
+ },
5149
+ {
5150
+ "epoch": 71.75106772422208,
5151
+ "grad_norm": 4.031295299530029,
5152
+ "learning_rate": 5.61576354679803e-05,
5153
+ "loss": 0.2729,
5154
+ "step": 14700
5155
+ },
5156
+ {
5157
+ "epoch": 71.84868822452715,
5158
+ "grad_norm": 3.0305051803588867,
5159
+ "learning_rate": 5.5960591133004925e-05,
5160
+ "loss": 0.272,
5161
+ "step": 14720
5162
+ },
5163
+ {
5164
+ "epoch": 71.94630872483222,
5165
+ "grad_norm": 2.170488119125366,
5166
+ "learning_rate": 5.5763546798029565e-05,
5167
+ "loss": 0.2771,
5168
+ "step": 14740
5169
+ },
5170
+ {
5171
+ "epoch": 72.04392922513728,
5172
+ "grad_norm": 2.89032244682312,
5173
+ "learning_rate": 5.556650246305419e-05,
5174
+ "loss": 0.2665,
5175
+ "step": 14760
5176
+ },
5177
+ {
5178
+ "epoch": 72.14154972544235,
5179
+ "grad_norm": 2.4803104400634766,
5180
+ "learning_rate": 5.536945812807882e-05,
5181
+ "loss": 0.2653,
5182
+ "step": 14780
5183
+ },
5184
+ {
5185
+ "epoch": 72.2391702257474,
5186
+ "grad_norm": 2.525521755218506,
5187
+ "learning_rate": 5.517241379310345e-05,
5188
+ "loss": 0.2595,
5189
+ "step": 14800
5190
+ },
5191
+ {
5192
+ "epoch": 72.33679072605247,
5193
+ "grad_norm": 2.121696710586548,
5194
+ "learning_rate": 5.497536945812808e-05,
5195
+ "loss": 0.2557,
5196
+ "step": 14820
5197
+ },
5198
+ {
5199
+ "epoch": 72.43441122635754,
5200
+ "grad_norm": 1.8344529867172241,
5201
+ "learning_rate": 5.477832512315271e-05,
5202
+ "loss": 0.2512,
5203
+ "step": 14840
5204
+ },
5205
+ {
5206
+ "epoch": 72.5320317266626,
5207
+ "grad_norm": 2.196624517440796,
5208
+ "learning_rate": 5.458128078817735e-05,
5209
+ "loss": 0.2474,
5210
+ "step": 14860
5211
+ },
5212
+ {
5213
+ "epoch": 72.62965222696766,
5214
+ "grad_norm": 3.387305974960327,
5215
+ "learning_rate": 5.4384236453201975e-05,
5216
+ "loss": 0.2696,
5217
+ "step": 14880
5218
+ },
5219
+ {
5220
+ "epoch": 72.72727272727273,
5221
+ "grad_norm": 2.481462240219116,
5222
+ "learning_rate": 5.41871921182266e-05,
5223
+ "loss": 0.2681,
5224
+ "step": 14900
5225
+ },
5226
+ {
5227
+ "epoch": 72.82489322757779,
5228
+ "grad_norm": 2.6742024421691895,
5229
+ "learning_rate": 5.399014778325123e-05,
5230
+ "loss": 0.2553,
5231
+ "step": 14920
5232
+ },
5233
+ {
5234
+ "epoch": 72.92251372788286,
5235
+ "grad_norm": 2.590111494064331,
5236
+ "learning_rate": 5.379310344827586e-05,
5237
+ "loss": 0.265,
5238
+ "step": 14940
5239
+ },
5240
+ {
5241
+ "epoch": 73.02013422818791,
5242
+ "grad_norm": 2.311305046081543,
5243
+ "learning_rate": 5.359605911330049e-05,
5244
+ "loss": 0.2644,
5245
+ "step": 14960
5246
+ },
5247
+ {
5248
+ "epoch": 73.11775472849298,
5249
+ "grad_norm": 2.502192974090576,
5250
+ "learning_rate": 5.339901477832513e-05,
5251
+ "loss": 0.2634,
5252
+ "step": 14980
5253
+ },
5254
+ {
5255
+ "epoch": 73.21537522879805,
5256
+ "grad_norm": 2.5767018795013428,
5257
+ "learning_rate": 5.320197044334976e-05,
5258
+ "loss": 0.2625,
5259
+ "step": 15000
5260
  }
5261
  ],
5262
  "logging_steps": 20,
 
5276
  "attributes": {}
5277
  }
5278
  },
5279
+ "total_flos": 2.988930606140621e+17,
5280
  "train_batch_size": 1,
5281
  "trial_name": null,
5282
  "trial_params": null