ManyingZ commited on
Commit
97d7ded
·
verified ·
1 Parent(s): 1e583b9

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +1753 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a61eceda4f3e583f262e8ebf73b2c9e19f6b690f584bb98977ea218db783977a
3
  size 3158328
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:283812852aa9943044c46ea9563e51d91830ead59f1e2d9af039a36083b2edcc
3
  size 3158328
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e093ed1c707300997497dbc1e6b17c4b6c332b015791188ac5b2a741423a2c5d
3
  size 1687034
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ecff4a590405220eacbe2c607e93c31ace86b6339d20cc4eb7cbdd3905a68247
3
  size 1687034
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:40904a91aa9d0b18232b04f286c69d79a167a7891f9c1462d77da5a10280249d
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6c1cd05962e3ca96a7b68f357adf12ab59e5a3549eefa364fd4ce7ea00f59257
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b907aed6e1e57922cb480424961aba116ee5b766ca9857e1376e5fbbce10214f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4fb75d6e1818a81bcc3d53f94d5a831be0e0f045ebba32887861936e527dc932
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 73.21537522879805,
5
  "eval_steps": 500,
6
- "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5257,6 +5257,1756 @@
5257
  "learning_rate": 0.00010229508196721311,
5258
  "loss": 0.0448,
5259
  "step": 15000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5260
  }
5261
  ],
5262
  "logging_steps": 20,
@@ -5276,7 +7026,7 @@
5276
  "attributes": {}
5277
  }
5278
  },
5279
- "total_flos": 1.6437155588267213e+17,
5280
  "train_batch_size": 1,
5281
  "trial_name": null,
5282
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 97.62050030506407,
5
  "eval_steps": 500,
6
+ "global_step": 20000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5257
  "learning_rate": 0.00010229508196721311,
5258
  "loss": 0.0448,
5259
  "step": 15000
5260
+ },
5261
+ {
5262
+ "epoch": 73.31299572910311,
5263
+ "grad_norm": 1.9551867246627808,
5264
+ "learning_rate": 0.00010216393442622951,
5265
+ "loss": 0.0468,
5266
+ "step": 15020
5267
+ },
5268
+ {
5269
+ "epoch": 73.41061622940818,
5270
+ "grad_norm": 2.8374905586242676,
5271
+ "learning_rate": 0.00010203278688524592,
5272
+ "loss": 0.0473,
5273
+ "step": 15040
5274
+ },
5275
+ {
5276
+ "epoch": 73.50823672971325,
5277
+ "grad_norm": 1.2752137184143066,
5278
+ "learning_rate": 0.00010190163934426229,
5279
+ "loss": 0.0487,
5280
+ "step": 15060
5281
+ },
5282
+ {
5283
+ "epoch": 73.6058572300183,
5284
+ "grad_norm": 1.7868965864181519,
5285
+ "learning_rate": 0.0001017704918032787,
5286
+ "loss": 0.0479,
5287
+ "step": 15080
5288
+ },
5289
+ {
5290
+ "epoch": 73.70347773032337,
5291
+ "grad_norm": 1.7490606307983398,
5292
+ "learning_rate": 0.00010163934426229508,
5293
+ "loss": 0.0466,
5294
+ "step": 15100
5295
+ },
5296
+ {
5297
+ "epoch": 73.80109823062843,
5298
+ "grad_norm": 2.4176886081695557,
5299
+ "learning_rate": 0.00010150819672131149,
5300
+ "loss": 0.0539,
5301
+ "step": 15120
5302
+ },
5303
+ {
5304
+ "epoch": 73.8987187309335,
5305
+ "grad_norm": 1.9388647079467773,
5306
+ "learning_rate": 0.00010137704918032786,
5307
+ "loss": 0.0527,
5308
+ "step": 15140
5309
+ },
5310
+ {
5311
+ "epoch": 73.99633923123857,
5312
+ "grad_norm": 1.9763060808181763,
5313
+ "learning_rate": 0.00010124590163934427,
5314
+ "loss": 0.0512,
5315
+ "step": 15160
5316
+ },
5317
+ {
5318
+ "epoch": 74.09395973154362,
5319
+ "grad_norm": 1.1881762742996216,
5320
+ "learning_rate": 0.00010111475409836067,
5321
+ "loss": 0.0406,
5322
+ "step": 15180
5323
+ },
5324
+ {
5325
+ "epoch": 74.19158023184869,
5326
+ "grad_norm": 1.5949184894561768,
5327
+ "learning_rate": 0.00010098360655737706,
5328
+ "loss": 0.0446,
5329
+ "step": 15200
5330
+ },
5331
+ {
5332
+ "epoch": 74.28920073215376,
5333
+ "grad_norm": 1.3817694187164307,
5334
+ "learning_rate": 0.00010085245901639345,
5335
+ "loss": 0.0468,
5336
+ "step": 15220
5337
+ },
5338
+ {
5339
+ "epoch": 74.38682123245881,
5340
+ "grad_norm": 1.4940481185913086,
5341
+ "learning_rate": 0.00010072131147540984,
5342
+ "loss": 0.0528,
5343
+ "step": 15240
5344
+ },
5345
+ {
5346
+ "epoch": 74.48444173276388,
5347
+ "grad_norm": 1.5146404504776,
5348
+ "learning_rate": 0.00010059016393442624,
5349
+ "loss": 0.0503,
5350
+ "step": 15260
5351
+ },
5352
+ {
5353
+ "epoch": 74.58206223306894,
5354
+ "grad_norm": 1.4908167123794556,
5355
+ "learning_rate": 0.00010045901639344261,
5356
+ "loss": 0.0474,
5357
+ "step": 15280
5358
+ },
5359
+ {
5360
+ "epoch": 74.67968273337401,
5361
+ "grad_norm": 1.9127382040023804,
5362
+ "learning_rate": 0.00010032786885245902,
5363
+ "loss": 0.0475,
5364
+ "step": 15300
5365
+ },
5366
+ {
5367
+ "epoch": 74.77730323367908,
5368
+ "grad_norm": 1.9283052682876587,
5369
+ "learning_rate": 0.00010019672131147542,
5370
+ "loss": 0.0482,
5371
+ "step": 15320
5372
+ },
5373
+ {
5374
+ "epoch": 74.87492373398413,
5375
+ "grad_norm": 1.434121012687683,
5376
+ "learning_rate": 0.00010006557377049181,
5377
+ "loss": 0.0484,
5378
+ "step": 15340
5379
+ },
5380
+ {
5381
+ "epoch": 74.9725442342892,
5382
+ "grad_norm": 1.2398452758789062,
5383
+ "learning_rate": 9.99344262295082e-05,
5384
+ "loss": 0.0474,
5385
+ "step": 15360
5386
+ },
5387
+ {
5388
+ "epoch": 75.07016473459427,
5389
+ "grad_norm": 1.463592529296875,
5390
+ "learning_rate": 9.980327868852459e-05,
5391
+ "loss": 0.0435,
5392
+ "step": 15380
5393
+ },
5394
+ {
5395
+ "epoch": 75.16778523489933,
5396
+ "grad_norm": 1.5821679830551147,
5397
+ "learning_rate": 9.967213114754099e-05,
5398
+ "loss": 0.0447,
5399
+ "step": 15400
5400
+ },
5401
+ {
5402
+ "epoch": 75.2654057352044,
5403
+ "grad_norm": 1.525728702545166,
5404
+ "learning_rate": 9.954098360655738e-05,
5405
+ "loss": 0.0442,
5406
+ "step": 15420
5407
+ },
5408
+ {
5409
+ "epoch": 75.36302623550945,
5410
+ "grad_norm": 1.2761436700820923,
5411
+ "learning_rate": 9.940983606557378e-05,
5412
+ "loss": 0.0464,
5413
+ "step": 15440
5414
+ },
5415
+ {
5416
+ "epoch": 75.46064673581452,
5417
+ "grad_norm": 1.4206050634384155,
5418
+ "learning_rate": 9.927868852459017e-05,
5419
+ "loss": 0.0436,
5420
+ "step": 15460
5421
+ },
5422
+ {
5423
+ "epoch": 75.55826723611959,
5424
+ "grad_norm": 2.7865281105041504,
5425
+ "learning_rate": 9.914754098360656e-05,
5426
+ "loss": 0.0505,
5427
+ "step": 15480
5428
+ },
5429
+ {
5430
+ "epoch": 75.65588773642465,
5431
+ "grad_norm": 1.249638557434082,
5432
+ "learning_rate": 9.901639344262295e-05,
5433
+ "loss": 0.0461,
5434
+ "step": 15500
5435
+ },
5436
+ {
5437
+ "epoch": 75.75350823672972,
5438
+ "grad_norm": 1.9104782342910767,
5439
+ "learning_rate": 9.888524590163934e-05,
5440
+ "loss": 0.0465,
5441
+ "step": 15520
5442
+ },
5443
+ {
5444
+ "epoch": 75.85112873703477,
5445
+ "grad_norm": 1.3011826276779175,
5446
+ "learning_rate": 9.875409836065574e-05,
5447
+ "loss": 0.0488,
5448
+ "step": 15540
5449
+ },
5450
+ {
5451
+ "epoch": 75.94874923733984,
5452
+ "grad_norm": 2.3834664821624756,
5453
+ "learning_rate": 9.862295081967213e-05,
5454
+ "loss": 0.0519,
5455
+ "step": 15560
5456
+ },
5457
+ {
5458
+ "epoch": 76.04636973764491,
5459
+ "grad_norm": 1.3640445470809937,
5460
+ "learning_rate": 9.849180327868854e-05,
5461
+ "loss": 0.0449,
5462
+ "step": 15580
5463
+ },
5464
+ {
5465
+ "epoch": 76.14399023794996,
5466
+ "grad_norm": 1.3013081550598145,
5467
+ "learning_rate": 9.836065573770493e-05,
5468
+ "loss": 0.0399,
5469
+ "step": 15600
5470
+ },
5471
+ {
5472
+ "epoch": 76.24161073825503,
5473
+ "grad_norm": 2.726545810699463,
5474
+ "learning_rate": 9.822950819672132e-05,
5475
+ "loss": 0.0427,
5476
+ "step": 15620
5477
+ },
5478
+ {
5479
+ "epoch": 76.3392312385601,
5480
+ "grad_norm": 1.2742412090301514,
5481
+ "learning_rate": 9.80983606557377e-05,
5482
+ "loss": 0.0439,
5483
+ "step": 15640
5484
+ },
5485
+ {
5486
+ "epoch": 76.43685173886516,
5487
+ "grad_norm": 1.67985999584198,
5488
+ "learning_rate": 9.796721311475411e-05,
5489
+ "loss": 0.0483,
5490
+ "step": 15660
5491
+ },
5492
+ {
5493
+ "epoch": 76.53447223917023,
5494
+ "grad_norm": 1.9676116704940796,
5495
+ "learning_rate": 9.78360655737705e-05,
5496
+ "loss": 0.0442,
5497
+ "step": 15680
5498
+ },
5499
+ {
5500
+ "epoch": 76.63209273947528,
5501
+ "grad_norm": 2.992687463760376,
5502
+ "learning_rate": 9.770491803278689e-05,
5503
+ "loss": 0.0429,
5504
+ "step": 15700
5505
+ },
5506
+ {
5507
+ "epoch": 76.72971323978035,
5508
+ "grad_norm": 1.0530943870544434,
5509
+ "learning_rate": 9.757377049180329e-05,
5510
+ "loss": 0.0488,
5511
+ "step": 15720
5512
+ },
5513
+ {
5514
+ "epoch": 76.82733374008542,
5515
+ "grad_norm": 1.5308395624160767,
5516
+ "learning_rate": 9.744262295081968e-05,
5517
+ "loss": 0.0442,
5518
+ "step": 15740
5519
+ },
5520
+ {
5521
+ "epoch": 76.92495424039048,
5522
+ "grad_norm": 1.6086573600769043,
5523
+ "learning_rate": 9.731147540983607e-05,
5524
+ "loss": 0.0504,
5525
+ "step": 15760
5526
+ },
5527
+ {
5528
+ "epoch": 77.02257474069555,
5529
+ "grad_norm": 0.7401487827301025,
5530
+ "learning_rate": 9.718032786885246e-05,
5531
+ "loss": 0.0469,
5532
+ "step": 15780
5533
+ },
5534
+ {
5535
+ "epoch": 77.12019524100062,
5536
+ "grad_norm": 1.6960521936416626,
5537
+ "learning_rate": 9.704918032786886e-05,
5538
+ "loss": 0.041,
5539
+ "step": 15800
5540
+ },
5541
+ {
5542
+ "epoch": 77.21781574130567,
5543
+ "grad_norm": 1.638244390487671,
5544
+ "learning_rate": 9.691803278688525e-05,
5545
+ "loss": 0.0381,
5546
+ "step": 15820
5547
+ },
5548
+ {
5549
+ "epoch": 77.31543624161074,
5550
+ "grad_norm": 1.749157190322876,
5551
+ "learning_rate": 9.678688524590165e-05,
5552
+ "loss": 0.0425,
5553
+ "step": 15840
5554
+ },
5555
+ {
5556
+ "epoch": 77.4130567419158,
5557
+ "grad_norm": 1.9708433151245117,
5558
+ "learning_rate": 9.665573770491804e-05,
5559
+ "loss": 0.046,
5560
+ "step": 15860
5561
+ },
5562
+ {
5563
+ "epoch": 77.51067724222086,
5564
+ "grad_norm": 1.3981733322143555,
5565
+ "learning_rate": 9.652459016393443e-05,
5566
+ "loss": 0.0489,
5567
+ "step": 15880
5568
+ },
5569
+ {
5570
+ "epoch": 77.60829774252593,
5571
+ "grad_norm": 2.0385096073150635,
5572
+ "learning_rate": 9.639344262295082e-05,
5573
+ "loss": 0.0442,
5574
+ "step": 15900
5575
+ },
5576
+ {
5577
+ "epoch": 77.70591824283099,
5578
+ "grad_norm": 1.5670779943466187,
5579
+ "learning_rate": 9.626229508196721e-05,
5580
+ "loss": 0.0412,
5581
+ "step": 15920
5582
+ },
5583
+ {
5584
+ "epoch": 77.80353874313606,
5585
+ "grad_norm": 1.3687881231307983,
5586
+ "learning_rate": 9.613114754098361e-05,
5587
+ "loss": 0.0469,
5588
+ "step": 15940
5589
+ },
5590
+ {
5591
+ "epoch": 77.90115924344113,
5592
+ "grad_norm": 1.388791799545288,
5593
+ "learning_rate": 9.6e-05,
5594
+ "loss": 0.0456,
5595
+ "step": 15960
5596
+ },
5597
+ {
5598
+ "epoch": 77.99877974374618,
5599
+ "grad_norm": 1.5988264083862305,
5600
+ "learning_rate": 9.58688524590164e-05,
5601
+ "loss": 0.048,
5602
+ "step": 15980
5603
+ },
5604
+ {
5605
+ "epoch": 78.09640024405125,
5606
+ "grad_norm": 2.0128464698791504,
5607
+ "learning_rate": 9.57377049180328e-05,
5608
+ "loss": 0.0406,
5609
+ "step": 16000
5610
+ },
5611
+ {
5612
+ "epoch": 78.19402074435631,
5613
+ "grad_norm": 1.9334806203842163,
5614
+ "learning_rate": 9.560655737704918e-05,
5615
+ "loss": 0.0402,
5616
+ "step": 16020
5617
+ },
5618
+ {
5619
+ "epoch": 78.29164124466138,
5620
+ "grad_norm": 2.799999952316284,
5621
+ "learning_rate": 9.547540983606557e-05,
5622
+ "loss": 0.0415,
5623
+ "step": 16040
5624
+ },
5625
+ {
5626
+ "epoch": 78.38926174496645,
5627
+ "grad_norm": 1.2322758436203003,
5628
+ "learning_rate": 9.534426229508198e-05,
5629
+ "loss": 0.0396,
5630
+ "step": 16060
5631
+ },
5632
+ {
5633
+ "epoch": 78.4868822452715,
5634
+ "grad_norm": 2.0646209716796875,
5635
+ "learning_rate": 9.521311475409837e-05,
5636
+ "loss": 0.0449,
5637
+ "step": 16080
5638
+ },
5639
+ {
5640
+ "epoch": 78.58450274557657,
5641
+ "grad_norm": 1.3239318132400513,
5642
+ "learning_rate": 9.508196721311476e-05,
5643
+ "loss": 0.0473,
5644
+ "step": 16100
5645
+ },
5646
+ {
5647
+ "epoch": 78.68212324588164,
5648
+ "grad_norm": 1.0266462564468384,
5649
+ "learning_rate": 9.495081967213116e-05,
5650
+ "loss": 0.047,
5651
+ "step": 16120
5652
+ },
5653
+ {
5654
+ "epoch": 78.7797437461867,
5655
+ "grad_norm": 1.3568265438079834,
5656
+ "learning_rate": 9.481967213114755e-05,
5657
+ "loss": 0.0472,
5658
+ "step": 16140
5659
+ },
5660
+ {
5661
+ "epoch": 78.87736424649177,
5662
+ "grad_norm": 1.8407416343688965,
5663
+ "learning_rate": 9.468852459016394e-05,
5664
+ "loss": 0.0489,
5665
+ "step": 16160
5666
+ },
5667
+ {
5668
+ "epoch": 78.97498474679682,
5669
+ "grad_norm": 3.1566367149353027,
5670
+ "learning_rate": 9.455737704918033e-05,
5671
+ "loss": 0.0447,
5672
+ "step": 16180
5673
+ },
5674
+ {
5675
+ "epoch": 79.07260524710189,
5676
+ "grad_norm": 1.4140985012054443,
5677
+ "learning_rate": 9.442622950819673e-05,
5678
+ "loss": 0.0397,
5679
+ "step": 16200
5680
+ },
5681
+ {
5682
+ "epoch": 79.17022574740696,
5683
+ "grad_norm": 1.774674654006958,
5684
+ "learning_rate": 9.429508196721312e-05,
5685
+ "loss": 0.0394,
5686
+ "step": 16220
5687
+ },
5688
+ {
5689
+ "epoch": 79.26784624771201,
5690
+ "grad_norm": 1.8382582664489746,
5691
+ "learning_rate": 9.416393442622952e-05,
5692
+ "loss": 0.0391,
5693
+ "step": 16240
5694
+ },
5695
+ {
5696
+ "epoch": 79.36546674801708,
5697
+ "grad_norm": 1.465022087097168,
5698
+ "learning_rate": 9.403278688524591e-05,
5699
+ "loss": 0.0427,
5700
+ "step": 16260
5701
+ },
5702
+ {
5703
+ "epoch": 79.46308724832215,
5704
+ "grad_norm": 1.5447912216186523,
5705
+ "learning_rate": 9.39016393442623e-05,
5706
+ "loss": 0.0435,
5707
+ "step": 16280
5708
+ },
5709
+ {
5710
+ "epoch": 79.56070774862721,
5711
+ "grad_norm": 1.5630700588226318,
5712
+ "learning_rate": 9.377049180327869e-05,
5713
+ "loss": 0.0426,
5714
+ "step": 16300
5715
+ },
5716
+ {
5717
+ "epoch": 79.65832824893228,
5718
+ "grad_norm": 2.1536877155303955,
5719
+ "learning_rate": 9.363934426229508e-05,
5720
+ "loss": 0.0436,
5721
+ "step": 16320
5722
+ },
5723
+ {
5724
+ "epoch": 79.75594874923733,
5725
+ "grad_norm": 1.5898195505142212,
5726
+ "learning_rate": 9.350819672131148e-05,
5727
+ "loss": 0.0488,
5728
+ "step": 16340
5729
+ },
5730
+ {
5731
+ "epoch": 79.8535692495424,
5732
+ "grad_norm": 1.5002379417419434,
5733
+ "learning_rate": 9.337704918032787e-05,
5734
+ "loss": 0.0453,
5735
+ "step": 16360
5736
+ },
5737
+ {
5738
+ "epoch": 79.95118974984747,
5739
+ "grad_norm": 1.7117916345596313,
5740
+ "learning_rate": 9.324590163934427e-05,
5741
+ "loss": 0.0483,
5742
+ "step": 16380
5743
+ },
5744
+ {
5745
+ "epoch": 80.04881025015253,
5746
+ "grad_norm": 1.672136664390564,
5747
+ "learning_rate": 9.311475409836066e-05,
5748
+ "loss": 0.0444,
5749
+ "step": 16400
5750
+ },
5751
+ {
5752
+ "epoch": 80.1464307504576,
5753
+ "grad_norm": 1.2889288663864136,
5754
+ "learning_rate": 9.298360655737705e-05,
5755
+ "loss": 0.0377,
5756
+ "step": 16420
5757
+ },
5758
+ {
5759
+ "epoch": 80.24405125076267,
5760
+ "grad_norm": 1.602657675743103,
5761
+ "learning_rate": 9.285245901639344e-05,
5762
+ "loss": 0.0431,
5763
+ "step": 16440
5764
+ },
5765
+ {
5766
+ "epoch": 80.34167175106772,
5767
+ "grad_norm": 1.673161506652832,
5768
+ "learning_rate": 9.272131147540985e-05,
5769
+ "loss": 0.0392,
5770
+ "step": 16460
5771
+ },
5772
+ {
5773
+ "epoch": 80.43929225137279,
5774
+ "grad_norm": 1.5590755939483643,
5775
+ "learning_rate": 9.259016393442623e-05,
5776
+ "loss": 0.0401,
5777
+ "step": 16480
5778
+ },
5779
+ {
5780
+ "epoch": 80.53691275167785,
5781
+ "grad_norm": 1.3792154788970947,
5782
+ "learning_rate": 9.245901639344264e-05,
5783
+ "loss": 0.0434,
5784
+ "step": 16500
5785
+ },
5786
+ {
5787
+ "epoch": 80.63453325198292,
5788
+ "grad_norm": 1.0110834836959839,
5789
+ "learning_rate": 9.232786885245903e-05,
5790
+ "loss": 0.0455,
5791
+ "step": 16520
5792
+ },
5793
+ {
5794
+ "epoch": 80.73215375228799,
5795
+ "grad_norm": 1.3876726627349854,
5796
+ "learning_rate": 9.21967213114754e-05,
5797
+ "loss": 0.0457,
5798
+ "step": 16540
5799
+ },
5800
+ {
5801
+ "epoch": 80.82977425259304,
5802
+ "grad_norm": 2.110999822616577,
5803
+ "learning_rate": 9.20655737704918e-05,
5804
+ "loss": 0.0467,
5805
+ "step": 16560
5806
+ },
5807
+ {
5808
+ "epoch": 80.92739475289811,
5809
+ "grad_norm": 1.9339549541473389,
5810
+ "learning_rate": 9.19344262295082e-05,
5811
+ "loss": 0.0432,
5812
+ "step": 16580
5813
+ },
5814
+ {
5815
+ "epoch": 81.02501525320318,
5816
+ "grad_norm": 1.1022757291793823,
5817
+ "learning_rate": 9.18032786885246e-05,
5818
+ "loss": 0.0454,
5819
+ "step": 16600
5820
+ },
5821
+ {
5822
+ "epoch": 81.12263575350823,
5823
+ "grad_norm": 1.7495752573013306,
5824
+ "learning_rate": 9.167213114754099e-05,
5825
+ "loss": 0.0375,
5826
+ "step": 16620
5827
+ },
5828
+ {
5829
+ "epoch": 81.2202562538133,
5830
+ "grad_norm": 1.6110937595367432,
5831
+ "learning_rate": 9.154098360655739e-05,
5832
+ "loss": 0.0399,
5833
+ "step": 16640
5834
+ },
5835
+ {
5836
+ "epoch": 81.31787675411836,
5837
+ "grad_norm": 1.7473942041397095,
5838
+ "learning_rate": 9.140983606557378e-05,
5839
+ "loss": 0.0399,
5840
+ "step": 16660
5841
+ },
5842
+ {
5843
+ "epoch": 81.41549725442343,
5844
+ "grad_norm": 1.6311129331588745,
5845
+ "learning_rate": 9.127868852459017e-05,
5846
+ "loss": 0.0397,
5847
+ "step": 16680
5848
+ },
5849
+ {
5850
+ "epoch": 81.5131177547285,
5851
+ "grad_norm": 2.0772838592529297,
5852
+ "learning_rate": 9.114754098360656e-05,
5853
+ "loss": 0.042,
5854
+ "step": 16700
5855
+ },
5856
+ {
5857
+ "epoch": 81.61073825503355,
5858
+ "grad_norm": 1.5818514823913574,
5859
+ "learning_rate": 9.101639344262296e-05,
5860
+ "loss": 0.0419,
5861
+ "step": 16720
5862
+ },
5863
+ {
5864
+ "epoch": 81.70835875533862,
5865
+ "grad_norm": 1.0751603841781616,
5866
+ "learning_rate": 9.088524590163935e-05,
5867
+ "loss": 0.0447,
5868
+ "step": 16740
5869
+ },
5870
+ {
5871
+ "epoch": 81.80597925564369,
5872
+ "grad_norm": 1.2915217876434326,
5873
+ "learning_rate": 9.075409836065574e-05,
5874
+ "loss": 0.0425,
5875
+ "step": 16760
5876
+ },
5877
+ {
5878
+ "epoch": 81.90359975594875,
5879
+ "grad_norm": 1.4814674854278564,
5880
+ "learning_rate": 9.062295081967214e-05,
5881
+ "loss": 0.0455,
5882
+ "step": 16780
5883
+ },
5884
+ {
5885
+ "epoch": 82.00122025625382,
5886
+ "grad_norm": 1.1471761465072632,
5887
+ "learning_rate": 9.049180327868852e-05,
5888
+ "loss": 0.0418,
5889
+ "step": 16800
5890
+ },
5891
+ {
5892
+ "epoch": 82.09884075655887,
5893
+ "grad_norm": 1.663212537765503,
5894
+ "learning_rate": 9.036065573770492e-05,
5895
+ "loss": 0.0348,
5896
+ "step": 16820
5897
+ },
5898
+ {
5899
+ "epoch": 82.19646125686394,
5900
+ "grad_norm": 2.423266887664795,
5901
+ "learning_rate": 9.022950819672131e-05,
5902
+ "loss": 0.0367,
5903
+ "step": 16840
5904
+ },
5905
+ {
5906
+ "epoch": 82.29408175716901,
5907
+ "grad_norm": 1.5083626508712769,
5908
+ "learning_rate": 9.009836065573771e-05,
5909
+ "loss": 0.038,
5910
+ "step": 16860
5911
+ },
5912
+ {
5913
+ "epoch": 82.39170225747407,
5914
+ "grad_norm": 1.2111772298812866,
5915
+ "learning_rate": 8.99672131147541e-05,
5916
+ "loss": 0.0404,
5917
+ "step": 16880
5918
+ },
5919
+ {
5920
+ "epoch": 82.48932275777914,
5921
+ "grad_norm": 2.1727235317230225,
5922
+ "learning_rate": 8.98360655737705e-05,
5923
+ "loss": 0.0434,
5924
+ "step": 16900
5925
+ },
5926
+ {
5927
+ "epoch": 82.5869432580842,
5928
+ "grad_norm": 1.3636887073516846,
5929
+ "learning_rate": 8.97049180327869e-05,
5930
+ "loss": 0.0404,
5931
+ "step": 16920
5932
+ },
5933
+ {
5934
+ "epoch": 82.68456375838926,
5935
+ "grad_norm": 2.5128073692321777,
5936
+ "learning_rate": 8.957377049180328e-05,
5937
+ "loss": 0.0442,
5938
+ "step": 16940
5939
+ },
5940
+ {
5941
+ "epoch": 82.78218425869433,
5942
+ "grad_norm": 1.3435509204864502,
5943
+ "learning_rate": 8.944262295081967e-05,
5944
+ "loss": 0.044,
5945
+ "step": 16960
5946
+ },
5947
+ {
5948
+ "epoch": 82.87980475899938,
5949
+ "grad_norm": 2.397655487060547,
5950
+ "learning_rate": 8.931147540983606e-05,
5951
+ "loss": 0.0447,
5952
+ "step": 16980
5953
+ },
5954
+ {
5955
+ "epoch": 82.97742525930445,
5956
+ "grad_norm": 1.5072938203811646,
5957
+ "learning_rate": 8.918032786885247e-05,
5958
+ "loss": 0.0411,
5959
+ "step": 17000
5960
+ },
5961
+ {
5962
+ "epoch": 83.07504575960952,
5963
+ "grad_norm": 1.9065088033676147,
5964
+ "learning_rate": 8.904918032786886e-05,
5965
+ "loss": 0.036,
5966
+ "step": 17020
5967
+ },
5968
+ {
5969
+ "epoch": 83.17266625991458,
5970
+ "grad_norm": 1.4267394542694092,
5971
+ "learning_rate": 8.891803278688526e-05,
5972
+ "loss": 0.035,
5973
+ "step": 17040
5974
+ },
5975
+ {
5976
+ "epoch": 83.27028676021965,
5977
+ "grad_norm": 1.677395224571228,
5978
+ "learning_rate": 8.878688524590163e-05,
5979
+ "loss": 0.0425,
5980
+ "step": 17060
5981
+ },
5982
+ {
5983
+ "epoch": 83.36790726052472,
5984
+ "grad_norm": 1.5407129526138306,
5985
+ "learning_rate": 8.865573770491804e-05,
5986
+ "loss": 0.0362,
5987
+ "step": 17080
5988
+ },
5989
+ {
5990
+ "epoch": 83.46552776082977,
5991
+ "grad_norm": 1.1154581308364868,
5992
+ "learning_rate": 8.852459016393443e-05,
5993
+ "loss": 0.0403,
5994
+ "step": 17100
5995
+ },
5996
+ {
5997
+ "epoch": 83.56314826113484,
5998
+ "grad_norm": 1.6043624877929688,
5999
+ "learning_rate": 8.839344262295083e-05,
6000
+ "loss": 0.0413,
6001
+ "step": 17120
6002
+ },
6003
+ {
6004
+ "epoch": 83.6607687614399,
6005
+ "grad_norm": 1.4952675104141235,
6006
+ "learning_rate": 8.826229508196722e-05,
6007
+ "loss": 0.0397,
6008
+ "step": 17140
6009
+ },
6010
+ {
6011
+ "epoch": 83.75838926174497,
6012
+ "grad_norm": 1.4162040948867798,
6013
+ "learning_rate": 8.813114754098362e-05,
6014
+ "loss": 0.0435,
6015
+ "step": 17160
6016
+ },
6017
+ {
6018
+ "epoch": 83.85600976205004,
6019
+ "grad_norm": 1.616909384727478,
6020
+ "learning_rate": 8.800000000000001e-05,
6021
+ "loss": 0.0455,
6022
+ "step": 17180
6023
+ },
6024
+ {
6025
+ "epoch": 83.95363026235509,
6026
+ "grad_norm": 1.3712050914764404,
6027
+ "learning_rate": 8.786885245901639e-05,
6028
+ "loss": 0.0442,
6029
+ "step": 17200
6030
+ },
6031
+ {
6032
+ "epoch": 84.05125076266016,
6033
+ "grad_norm": 1.0349308252334595,
6034
+ "learning_rate": 8.773770491803279e-05,
6035
+ "loss": 0.0368,
6036
+ "step": 17220
6037
+ },
6038
+ {
6039
+ "epoch": 84.14887126296523,
6040
+ "grad_norm": 1.427959680557251,
6041
+ "learning_rate": 8.760655737704918e-05,
6042
+ "loss": 0.0318,
6043
+ "step": 17240
6044
+ },
6045
+ {
6046
+ "epoch": 84.24649176327028,
6047
+ "grad_norm": 1.1814582347869873,
6048
+ "learning_rate": 8.747540983606558e-05,
6049
+ "loss": 0.0386,
6050
+ "step": 17260
6051
+ },
6052
+ {
6053
+ "epoch": 84.34411226357535,
6054
+ "grad_norm": 1.0893490314483643,
6055
+ "learning_rate": 8.734426229508197e-05,
6056
+ "loss": 0.0398,
6057
+ "step": 17280
6058
+ },
6059
+ {
6060
+ "epoch": 84.44173276388041,
6061
+ "grad_norm": 1.2510510683059692,
6062
+ "learning_rate": 8.721311475409837e-05,
6063
+ "loss": 0.0425,
6064
+ "step": 17300
6065
+ },
6066
+ {
6067
+ "epoch": 84.53935326418548,
6068
+ "grad_norm": 0.9642720818519592,
6069
+ "learning_rate": 8.708196721311475e-05,
6070
+ "loss": 0.0384,
6071
+ "step": 17320
6072
+ },
6073
+ {
6074
+ "epoch": 84.63697376449055,
6075
+ "grad_norm": 1.2420659065246582,
6076
+ "learning_rate": 8.695081967213115e-05,
6077
+ "loss": 0.038,
6078
+ "step": 17340
6079
+ },
6080
+ {
6081
+ "epoch": 84.7345942647956,
6082
+ "grad_norm": 1.0976778268814087,
6083
+ "learning_rate": 8.681967213114754e-05,
6084
+ "loss": 0.0428,
6085
+ "step": 17360
6086
+ },
6087
+ {
6088
+ "epoch": 84.83221476510067,
6089
+ "grad_norm": 1.282233476638794,
6090
+ "learning_rate": 8.668852459016393e-05,
6091
+ "loss": 0.0418,
6092
+ "step": 17380
6093
+ },
6094
+ {
6095
+ "epoch": 84.92983526540573,
6096
+ "grad_norm": 2.0834672451019287,
6097
+ "learning_rate": 8.655737704918033e-05,
6098
+ "loss": 0.0441,
6099
+ "step": 17400
6100
+ },
6101
+ {
6102
+ "epoch": 85.0274557657108,
6103
+ "grad_norm": 1.0747671127319336,
6104
+ "learning_rate": 8.642622950819672e-05,
6105
+ "loss": 0.0415,
6106
+ "step": 17420
6107
+ },
6108
+ {
6109
+ "epoch": 85.12507626601587,
6110
+ "grad_norm": 1.6715941429138184,
6111
+ "learning_rate": 8.629508196721313e-05,
6112
+ "loss": 0.0366,
6113
+ "step": 17440
6114
+ },
6115
+ {
6116
+ "epoch": 85.22269676632092,
6117
+ "grad_norm": 1.115537166595459,
6118
+ "learning_rate": 8.61639344262295e-05,
6119
+ "loss": 0.0326,
6120
+ "step": 17460
6121
+ },
6122
+ {
6123
+ "epoch": 85.32031726662599,
6124
+ "grad_norm": 1.118455410003662,
6125
+ "learning_rate": 8.60327868852459e-05,
6126
+ "loss": 0.0384,
6127
+ "step": 17480
6128
+ },
6129
+ {
6130
+ "epoch": 85.41793776693106,
6131
+ "grad_norm": 1.6129100322723389,
6132
+ "learning_rate": 8.59016393442623e-05,
6133
+ "loss": 0.0376,
6134
+ "step": 17500
6135
+ },
6136
+ {
6137
+ "epoch": 85.51555826723612,
6138
+ "grad_norm": 2.3377175331115723,
6139
+ "learning_rate": 8.57704918032787e-05,
6140
+ "loss": 0.0388,
6141
+ "step": 17520
6142
+ },
6143
+ {
6144
+ "epoch": 85.61317876754119,
6145
+ "grad_norm": 1.2189383506774902,
6146
+ "learning_rate": 8.563934426229509e-05,
6147
+ "loss": 0.0405,
6148
+ "step": 17540
6149
+ },
6150
+ {
6151
+ "epoch": 85.71079926784624,
6152
+ "grad_norm": 1.24251389503479,
6153
+ "learning_rate": 8.550819672131149e-05,
6154
+ "loss": 0.0426,
6155
+ "step": 17560
6156
+ },
6157
+ {
6158
+ "epoch": 85.80841976815131,
6159
+ "grad_norm": 1.1355634927749634,
6160
+ "learning_rate": 8.537704918032787e-05,
6161
+ "loss": 0.0407,
6162
+ "step": 17580
6163
+ },
6164
+ {
6165
+ "epoch": 85.90604026845638,
6166
+ "grad_norm": 1.5692590475082397,
6167
+ "learning_rate": 8.524590163934426e-05,
6168
+ "loss": 0.0438,
6169
+ "step": 17600
6170
+ },
6171
+ {
6172
+ "epoch": 86.00366076876143,
6173
+ "grad_norm": 0.9955014586448669,
6174
+ "learning_rate": 8.511475409836066e-05,
6175
+ "loss": 0.0414,
6176
+ "step": 17620
6177
+ },
6178
+ {
6179
+ "epoch": 86.1012812690665,
6180
+ "grad_norm": 1.3448798656463623,
6181
+ "learning_rate": 8.498360655737705e-05,
6182
+ "loss": 0.0307,
6183
+ "step": 17640
6184
+ },
6185
+ {
6186
+ "epoch": 86.19890176937157,
6187
+ "grad_norm": 2.263423442840576,
6188
+ "learning_rate": 8.485245901639345e-05,
6189
+ "loss": 0.0354,
6190
+ "step": 17660
6191
+ },
6192
+ {
6193
+ "epoch": 86.29652226967663,
6194
+ "grad_norm": 2.385218620300293,
6195
+ "learning_rate": 8.472131147540984e-05,
6196
+ "loss": 0.0373,
6197
+ "step": 17680
6198
+ },
6199
+ {
6200
+ "epoch": 86.3941427699817,
6201
+ "grad_norm": 1.5091354846954346,
6202
+ "learning_rate": 8.459016393442624e-05,
6203
+ "loss": 0.0366,
6204
+ "step": 17700
6205
+ },
6206
+ {
6207
+ "epoch": 86.49176327028675,
6208
+ "grad_norm": 1.300026297569275,
6209
+ "learning_rate": 8.445901639344262e-05,
6210
+ "loss": 0.0423,
6211
+ "step": 17720
6212
+ },
6213
+ {
6214
+ "epoch": 86.58938377059182,
6215
+ "grad_norm": 1.4994693994522095,
6216
+ "learning_rate": 8.432786885245902e-05,
6217
+ "loss": 0.0406,
6218
+ "step": 17740
6219
+ },
6220
+ {
6221
+ "epoch": 86.68700427089689,
6222
+ "grad_norm": 1.3377670049667358,
6223
+ "learning_rate": 8.419672131147541e-05,
6224
+ "loss": 0.0414,
6225
+ "step": 17760
6226
+ },
6227
+ {
6228
+ "epoch": 86.78462477120195,
6229
+ "grad_norm": 0.9744328260421753,
6230
+ "learning_rate": 8.406557377049181e-05,
6231
+ "loss": 0.0391,
6232
+ "step": 17780
6233
+ },
6234
+ {
6235
+ "epoch": 86.88224527150702,
6236
+ "grad_norm": 1.1345022916793823,
6237
+ "learning_rate": 8.39344262295082e-05,
6238
+ "loss": 0.0404,
6239
+ "step": 17800
6240
+ },
6241
+ {
6242
+ "epoch": 86.97986577181209,
6243
+ "grad_norm": 1.7516177892684937,
6244
+ "learning_rate": 8.380327868852459e-05,
6245
+ "loss": 0.0439,
6246
+ "step": 17820
6247
+ },
6248
+ {
6249
+ "epoch": 87.07748627211714,
6250
+ "grad_norm": 1.2439887523651123,
6251
+ "learning_rate": 8.367213114754098e-05,
6252
+ "loss": 0.0335,
6253
+ "step": 17840
6254
+ },
6255
+ {
6256
+ "epoch": 87.17510677242221,
6257
+ "grad_norm": 1.586146354675293,
6258
+ "learning_rate": 8.354098360655737e-05,
6259
+ "loss": 0.031,
6260
+ "step": 17860
6261
+ },
6262
+ {
6263
+ "epoch": 87.27272727272727,
6264
+ "grad_norm": 1.3947432041168213,
6265
+ "learning_rate": 8.340983606557377e-05,
6266
+ "loss": 0.0385,
6267
+ "step": 17880
6268
+ },
6269
+ {
6270
+ "epoch": 87.37034777303234,
6271
+ "grad_norm": 0.9418930411338806,
6272
+ "learning_rate": 8.327868852459016e-05,
6273
+ "loss": 0.0364,
6274
+ "step": 17900
6275
+ },
6276
+ {
6277
+ "epoch": 87.4679682733374,
6278
+ "grad_norm": 0.8570541739463806,
6279
+ "learning_rate": 8.314754098360657e-05,
6280
+ "loss": 0.0378,
6281
+ "step": 17920
6282
+ },
6283
+ {
6284
+ "epoch": 87.56558877364246,
6285
+ "grad_norm": 1.2564805746078491,
6286
+ "learning_rate": 8.301639344262296e-05,
6287
+ "loss": 0.0373,
6288
+ "step": 17940
6289
+ },
6290
+ {
6291
+ "epoch": 87.66320927394753,
6292
+ "grad_norm": 1.062628149986267,
6293
+ "learning_rate": 8.288524590163935e-05,
6294
+ "loss": 0.0372,
6295
+ "step": 17960
6296
+ },
6297
+ {
6298
+ "epoch": 87.7608297742526,
6299
+ "grad_norm": 1.4381693601608276,
6300
+ "learning_rate": 8.275409836065573e-05,
6301
+ "loss": 0.0417,
6302
+ "step": 17980
6303
+ },
6304
+ {
6305
+ "epoch": 87.85845027455765,
6306
+ "grad_norm": 1.6939609050750732,
6307
+ "learning_rate": 8.262295081967214e-05,
6308
+ "loss": 0.0414,
6309
+ "step": 18000
6310
+ },
6311
+ {
6312
+ "epoch": 87.95607077486272,
6313
+ "grad_norm": 1.5280972719192505,
6314
+ "learning_rate": 8.249180327868853e-05,
6315
+ "loss": 0.0411,
6316
+ "step": 18020
6317
+ },
6318
+ {
6319
+ "epoch": 88.05369127516778,
6320
+ "grad_norm": 1.0062308311462402,
6321
+ "learning_rate": 8.236065573770492e-05,
6322
+ "loss": 0.0354,
6323
+ "step": 18040
6324
+ },
6325
+ {
6326
+ "epoch": 88.15131177547285,
6327
+ "grad_norm": 2.354576826095581,
6328
+ "learning_rate": 8.222950819672132e-05,
6329
+ "loss": 0.0318,
6330
+ "step": 18060
6331
+ },
6332
+ {
6333
+ "epoch": 88.24893227577792,
6334
+ "grad_norm": 1.3578128814697266,
6335
+ "learning_rate": 8.209836065573771e-05,
6336
+ "loss": 0.0355,
6337
+ "step": 18080
6338
+ },
6339
+ {
6340
+ "epoch": 88.34655277608297,
6341
+ "grad_norm": 1.0361335277557373,
6342
+ "learning_rate": 8.19672131147541e-05,
6343
+ "loss": 0.0332,
6344
+ "step": 18100
6345
+ },
6346
+ {
6347
+ "epoch": 88.44417327638804,
6348
+ "grad_norm": 1.3577088117599487,
6349
+ "learning_rate": 8.183606557377049e-05,
6350
+ "loss": 0.0372,
6351
+ "step": 18120
6352
+ },
6353
+ {
6354
+ "epoch": 88.54179377669311,
6355
+ "grad_norm": 1.5548292398452759,
6356
+ "learning_rate": 8.170491803278689e-05,
6357
+ "loss": 0.0384,
6358
+ "step": 18140
6359
+ },
6360
+ {
6361
+ "epoch": 88.63941427699817,
6362
+ "grad_norm": 0.9935953617095947,
6363
+ "learning_rate": 8.157377049180328e-05,
6364
+ "loss": 0.0364,
6365
+ "step": 18160
6366
+ },
6367
+ {
6368
+ "epoch": 88.73703477730324,
6369
+ "grad_norm": 1.093231201171875,
6370
+ "learning_rate": 8.144262295081968e-05,
6371
+ "loss": 0.0369,
6372
+ "step": 18180
6373
+ },
6374
+ {
6375
+ "epoch": 88.83465527760829,
6376
+ "grad_norm": 1.0061986446380615,
6377
+ "learning_rate": 8.131147540983607e-05,
6378
+ "loss": 0.0415,
6379
+ "step": 18200
6380
+ },
6381
+ {
6382
+ "epoch": 88.93227577791336,
6383
+ "grad_norm": 1.2928169965744019,
6384
+ "learning_rate": 8.118032786885246e-05,
6385
+ "loss": 0.0405,
6386
+ "step": 18220
6387
+ },
6388
+ {
6389
+ "epoch": 89.02989627821843,
6390
+ "grad_norm": 1.4209178686141968,
6391
+ "learning_rate": 8.104918032786885e-05,
6392
+ "loss": 0.0382,
6393
+ "step": 18240
6394
+ },
6395
+ {
6396
+ "epoch": 89.12751677852349,
6397
+ "grad_norm": 1.7799944877624512,
6398
+ "learning_rate": 8.091803278688524e-05,
6399
+ "loss": 0.0338,
6400
+ "step": 18260
6401
+ },
6402
+ {
6403
+ "epoch": 89.22513727882856,
6404
+ "grad_norm": 0.9708789587020874,
6405
+ "learning_rate": 8.078688524590164e-05,
6406
+ "loss": 0.0362,
6407
+ "step": 18280
6408
+ },
6409
+ {
6410
+ "epoch": 89.32275777913362,
6411
+ "grad_norm": 1.9509353637695312,
6412
+ "learning_rate": 8.065573770491803e-05,
6413
+ "loss": 0.0339,
6414
+ "step": 18300
6415
+ },
6416
+ {
6417
+ "epoch": 89.42037827943868,
6418
+ "grad_norm": 1.2407267093658447,
6419
+ "learning_rate": 8.052459016393444e-05,
6420
+ "loss": 0.0368,
6421
+ "step": 18320
6422
+ },
6423
+ {
6424
+ "epoch": 89.51799877974375,
6425
+ "grad_norm": 1.3398857116699219,
6426
+ "learning_rate": 8.039344262295082e-05,
6427
+ "loss": 0.0368,
6428
+ "step": 18340
6429
+ },
6430
+ {
6431
+ "epoch": 89.6156192800488,
6432
+ "grad_norm": 1.7856793403625488,
6433
+ "learning_rate": 8.026229508196721e-05,
6434
+ "loss": 0.0421,
6435
+ "step": 18360
6436
+ },
6437
+ {
6438
+ "epoch": 89.71323978035387,
6439
+ "grad_norm": 0.8198001980781555,
6440
+ "learning_rate": 8.01311475409836e-05,
6441
+ "loss": 0.0343,
6442
+ "step": 18380
6443
+ },
6444
+ {
6445
+ "epoch": 89.81086028065894,
6446
+ "grad_norm": 1.2887758016586304,
6447
+ "learning_rate": 8e-05,
6448
+ "loss": 0.037,
6449
+ "step": 18400
6450
+ },
6451
+ {
6452
+ "epoch": 89.908480780964,
6453
+ "grad_norm": 1.6205062866210938,
6454
+ "learning_rate": 7.98688524590164e-05,
6455
+ "loss": 0.0395,
6456
+ "step": 18420
6457
+ },
6458
+ {
6459
+ "epoch": 90.00610128126907,
6460
+ "grad_norm": 1.4648716449737549,
6461
+ "learning_rate": 7.97377049180328e-05,
6462
+ "loss": 0.0387,
6463
+ "step": 18440
6464
+ },
6465
+ {
6466
+ "epoch": 90.10372178157414,
6467
+ "grad_norm": 0.8236134648323059,
6468
+ "learning_rate": 7.960655737704919e-05,
6469
+ "loss": 0.0317,
6470
+ "step": 18460
6471
+ },
6472
+ {
6473
+ "epoch": 90.20134228187919,
6474
+ "grad_norm": 1.4608750343322754,
6475
+ "learning_rate": 7.947540983606558e-05,
6476
+ "loss": 0.0347,
6477
+ "step": 18480
6478
+ },
6479
+ {
6480
+ "epoch": 90.29896278218426,
6481
+ "grad_norm": 0.9114894866943359,
6482
+ "learning_rate": 7.934426229508197e-05,
6483
+ "loss": 0.0347,
6484
+ "step": 18500
6485
+ },
6486
+ {
6487
+ "epoch": 90.39658328248932,
6488
+ "grad_norm": 0.7654961347579956,
6489
+ "learning_rate": 7.921311475409836e-05,
6490
+ "loss": 0.0324,
6491
+ "step": 18520
6492
+ },
6493
+ {
6494
+ "epoch": 90.49420378279439,
6495
+ "grad_norm": 1.1844931840896606,
6496
+ "learning_rate": 7.908196721311476e-05,
6497
+ "loss": 0.0352,
6498
+ "step": 18540
6499
+ },
6500
+ {
6501
+ "epoch": 90.59182428309946,
6502
+ "grad_norm": 1.6406841278076172,
6503
+ "learning_rate": 7.895081967213115e-05,
6504
+ "loss": 0.0352,
6505
+ "step": 18560
6506
+ },
6507
+ {
6508
+ "epoch": 90.68944478340451,
6509
+ "grad_norm": 1.5059739351272583,
6510
+ "learning_rate": 7.881967213114755e-05,
6511
+ "loss": 0.0386,
6512
+ "step": 18580
6513
+ },
6514
+ {
6515
+ "epoch": 90.78706528370958,
6516
+ "grad_norm": 0.7421912550926208,
6517
+ "learning_rate": 7.868852459016394e-05,
6518
+ "loss": 0.0381,
6519
+ "step": 18600
6520
+ },
6521
+ {
6522
+ "epoch": 90.88468578401465,
6523
+ "grad_norm": 1.2397936582565308,
6524
+ "learning_rate": 7.855737704918033e-05,
6525
+ "loss": 0.0365,
6526
+ "step": 18620
6527
+ },
6528
+ {
6529
+ "epoch": 90.9823062843197,
6530
+ "grad_norm": 1.0268443822860718,
6531
+ "learning_rate": 7.842622950819672e-05,
6532
+ "loss": 0.0402,
6533
+ "step": 18640
6534
+ },
6535
+ {
6536
+ "epoch": 91.07992678462477,
6537
+ "grad_norm": 0.87629234790802,
6538
+ "learning_rate": 7.829508196721311e-05,
6539
+ "loss": 0.0308,
6540
+ "step": 18660
6541
+ },
6542
+ {
6543
+ "epoch": 91.17754728492983,
6544
+ "grad_norm": 2.2132532596588135,
6545
+ "learning_rate": 7.816393442622951e-05,
6546
+ "loss": 0.031,
6547
+ "step": 18680
6548
+ },
6549
+ {
6550
+ "epoch": 91.2751677852349,
6551
+ "grad_norm": 1.2565170526504517,
6552
+ "learning_rate": 7.80327868852459e-05,
6553
+ "loss": 0.034,
6554
+ "step": 18700
6555
+ },
6556
+ {
6557
+ "epoch": 91.37278828553997,
6558
+ "grad_norm": 1.191254734992981,
6559
+ "learning_rate": 7.79016393442623e-05,
6560
+ "loss": 0.0348,
6561
+ "step": 18720
6562
+ },
6563
+ {
6564
+ "epoch": 91.47040878584502,
6565
+ "grad_norm": 0.711301326751709,
6566
+ "learning_rate": 7.77704918032787e-05,
6567
+ "loss": 0.0342,
6568
+ "step": 18740
6569
+ },
6570
+ {
6571
+ "epoch": 91.5680292861501,
6572
+ "grad_norm": 0.8898797035217285,
6573
+ "learning_rate": 7.763934426229508e-05,
6574
+ "loss": 0.0348,
6575
+ "step": 18760
6576
+ },
6577
+ {
6578
+ "epoch": 91.66564978645516,
6579
+ "grad_norm": 0.8842754364013672,
6580
+ "learning_rate": 7.750819672131147e-05,
6581
+ "loss": 0.0343,
6582
+ "step": 18780
6583
+ },
6584
+ {
6585
+ "epoch": 91.76327028676022,
6586
+ "grad_norm": 1.7899420261383057,
6587
+ "learning_rate": 7.737704918032788e-05,
6588
+ "loss": 0.0395,
6589
+ "step": 18800
6590
+ },
6591
+ {
6592
+ "epoch": 91.86089078706529,
6593
+ "grad_norm": 1.710175633430481,
6594
+ "learning_rate": 7.724590163934426e-05,
6595
+ "loss": 0.0387,
6596
+ "step": 18820
6597
+ },
6598
+ {
6599
+ "epoch": 91.95851128737034,
6600
+ "grad_norm": 1.8949339389801025,
6601
+ "learning_rate": 7.711475409836067e-05,
6602
+ "loss": 0.0409,
6603
+ "step": 18840
6604
+ },
6605
+ {
6606
+ "epoch": 92.05613178767541,
6607
+ "grad_norm": 1.6512871980667114,
6608
+ "learning_rate": 7.698360655737706e-05,
6609
+ "loss": 0.0353,
6610
+ "step": 18860
6611
+ },
6612
+ {
6613
+ "epoch": 92.15375228798048,
6614
+ "grad_norm": 1.1428453922271729,
6615
+ "learning_rate": 7.685245901639345e-05,
6616
+ "loss": 0.031,
6617
+ "step": 18880
6618
+ },
6619
+ {
6620
+ "epoch": 92.25137278828554,
6621
+ "grad_norm": 1.9489351511001587,
6622
+ "learning_rate": 7.672131147540984e-05,
6623
+ "loss": 0.0328,
6624
+ "step": 18900
6625
+ },
6626
+ {
6627
+ "epoch": 92.3489932885906,
6628
+ "grad_norm": 1.148255467414856,
6629
+ "learning_rate": 7.659016393442622e-05,
6630
+ "loss": 0.0334,
6631
+ "step": 18920
6632
+ },
6633
+ {
6634
+ "epoch": 92.44661378889568,
6635
+ "grad_norm": 1.2118985652923584,
6636
+ "learning_rate": 7.645901639344263e-05,
6637
+ "loss": 0.0319,
6638
+ "step": 18940
6639
+ },
6640
+ {
6641
+ "epoch": 92.54423428920073,
6642
+ "grad_norm": 0.9434294700622559,
6643
+ "learning_rate": 7.632786885245902e-05,
6644
+ "loss": 0.0377,
6645
+ "step": 18960
6646
+ },
6647
+ {
6648
+ "epoch": 92.6418547895058,
6649
+ "grad_norm": 1.136614441871643,
6650
+ "learning_rate": 7.619672131147542e-05,
6651
+ "loss": 0.0358,
6652
+ "step": 18980
6653
+ },
6654
+ {
6655
+ "epoch": 92.73947528981085,
6656
+ "grad_norm": 1.6465675830841064,
6657
+ "learning_rate": 7.606557377049181e-05,
6658
+ "loss": 0.0335,
6659
+ "step": 19000
6660
+ },
6661
+ {
6662
+ "epoch": 92.83709579011592,
6663
+ "grad_norm": 1.623631477355957,
6664
+ "learning_rate": 7.59344262295082e-05,
6665
+ "loss": 0.0377,
6666
+ "step": 19020
6667
+ },
6668
+ {
6669
+ "epoch": 92.934716290421,
6670
+ "grad_norm": 1.2394886016845703,
6671
+ "learning_rate": 7.580327868852459e-05,
6672
+ "loss": 0.0378,
6673
+ "step": 19040
6674
+ },
6675
+ {
6676
+ "epoch": 93.03233679072605,
6677
+ "grad_norm": 1.0836046934127808,
6678
+ "learning_rate": 7.567213114754099e-05,
6679
+ "loss": 0.0374,
6680
+ "step": 19060
6681
+ },
6682
+ {
6683
+ "epoch": 93.12995729103112,
6684
+ "grad_norm": 1.2980749607086182,
6685
+ "learning_rate": 7.554098360655738e-05,
6686
+ "loss": 0.0299,
6687
+ "step": 19080
6688
+ },
6689
+ {
6690
+ "epoch": 93.22757779133617,
6691
+ "grad_norm": 0.7896084785461426,
6692
+ "learning_rate": 7.540983606557377e-05,
6693
+ "loss": 0.0338,
6694
+ "step": 19100
6695
+ },
6696
+ {
6697
+ "epoch": 93.32519829164124,
6698
+ "grad_norm": 1.4562427997589111,
6699
+ "learning_rate": 7.527868852459017e-05,
6700
+ "loss": 0.0325,
6701
+ "step": 19120
6702
+ },
6703
+ {
6704
+ "epoch": 93.42281879194631,
6705
+ "grad_norm": 1.0484211444854736,
6706
+ "learning_rate": 7.514754098360656e-05,
6707
+ "loss": 0.0319,
6708
+ "step": 19140
6709
+ },
6710
+ {
6711
+ "epoch": 93.52043929225137,
6712
+ "grad_norm": 1.2180018424987793,
6713
+ "learning_rate": 7.501639344262295e-05,
6714
+ "loss": 0.0358,
6715
+ "step": 19160
6716
+ },
6717
+ {
6718
+ "epoch": 93.61805979255644,
6719
+ "grad_norm": 1.5725558996200562,
6720
+ "learning_rate": 7.488524590163934e-05,
6721
+ "loss": 0.0371,
6722
+ "step": 19180
6723
+ },
6724
+ {
6725
+ "epoch": 93.7156802928615,
6726
+ "grad_norm": 0.962448000907898,
6727
+ "learning_rate": 7.475409836065574e-05,
6728
+ "loss": 0.0329,
6729
+ "step": 19200
6730
+ },
6731
+ {
6732
+ "epoch": 93.81330079316656,
6733
+ "grad_norm": 1.2971309423446655,
6734
+ "learning_rate": 7.462295081967213e-05,
6735
+ "loss": 0.0388,
6736
+ "step": 19220
6737
+ },
6738
+ {
6739
+ "epoch": 93.91092129347163,
6740
+ "grad_norm": 1.621389627456665,
6741
+ "learning_rate": 7.449180327868854e-05,
6742
+ "loss": 0.035,
6743
+ "step": 19240
6744
+ },
6745
+ {
6746
+ "epoch": 94.00854179377669,
6747
+ "grad_norm": 1.1524312496185303,
6748
+ "learning_rate": 7.436065573770493e-05,
6749
+ "loss": 0.036,
6750
+ "step": 19260
6751
+ },
6752
+ {
6753
+ "epoch": 94.10616229408176,
6754
+ "grad_norm": 1.0361751317977905,
6755
+ "learning_rate": 7.422950819672131e-05,
6756
+ "loss": 0.0311,
6757
+ "step": 19280
6758
+ },
6759
+ {
6760
+ "epoch": 94.20378279438683,
6761
+ "grad_norm": 1.2280365228652954,
6762
+ "learning_rate": 7.40983606557377e-05,
6763
+ "loss": 0.032,
6764
+ "step": 19300
6765
+ },
6766
+ {
6767
+ "epoch": 94.30140329469188,
6768
+ "grad_norm": 1.39139723777771,
6769
+ "learning_rate": 7.39672131147541e-05,
6770
+ "loss": 0.0312,
6771
+ "step": 19320
6772
+ },
6773
+ {
6774
+ "epoch": 94.39902379499695,
6775
+ "grad_norm": 2.101762533187866,
6776
+ "learning_rate": 7.38360655737705e-05,
6777
+ "loss": 0.0304,
6778
+ "step": 19340
6779
+ },
6780
+ {
6781
+ "epoch": 94.49664429530202,
6782
+ "grad_norm": 1.5655161142349243,
6783
+ "learning_rate": 7.370491803278689e-05,
6784
+ "loss": 0.0332,
6785
+ "step": 19360
6786
+ },
6787
+ {
6788
+ "epoch": 94.59426479560707,
6789
+ "grad_norm": 1.1902984380722046,
6790
+ "learning_rate": 7.357377049180329e-05,
6791
+ "loss": 0.0308,
6792
+ "step": 19380
6793
+ },
6794
+ {
6795
+ "epoch": 94.69188529591214,
6796
+ "grad_norm": 1.3503782749176025,
6797
+ "learning_rate": 7.344262295081968e-05,
6798
+ "loss": 0.0342,
6799
+ "step": 19400
6800
+ },
6801
+ {
6802
+ "epoch": 94.7895057962172,
6803
+ "grad_norm": 1.6430237293243408,
6804
+ "learning_rate": 7.331147540983607e-05,
6805
+ "loss": 0.0375,
6806
+ "step": 19420
6807
+ },
6808
+ {
6809
+ "epoch": 94.88712629652227,
6810
+ "grad_norm": 1.4753270149230957,
6811
+ "learning_rate": 7.318032786885246e-05,
6812
+ "loss": 0.0361,
6813
+ "step": 19440
6814
+ },
6815
+ {
6816
+ "epoch": 94.98474679682734,
6817
+ "grad_norm": 1.6849883794784546,
6818
+ "learning_rate": 7.304918032786886e-05,
6819
+ "loss": 0.0377,
6820
+ "step": 19460
6821
+ },
6822
+ {
6823
+ "epoch": 95.0823672971324,
6824
+ "grad_norm": 0.9980133175849915,
6825
+ "learning_rate": 7.291803278688525e-05,
6826
+ "loss": 0.0286,
6827
+ "step": 19480
6828
+ },
6829
+ {
6830
+ "epoch": 95.17998779743746,
6831
+ "grad_norm": 0.911799430847168,
6832
+ "learning_rate": 7.278688524590165e-05,
6833
+ "loss": 0.0304,
6834
+ "step": 19500
6835
+ },
6836
+ {
6837
+ "epoch": 95.27760829774253,
6838
+ "grad_norm": 1.0748980045318604,
6839
+ "learning_rate": 7.265573770491804e-05,
6840
+ "loss": 0.0312,
6841
+ "step": 19520
6842
+ },
6843
+ {
6844
+ "epoch": 95.37522879804759,
6845
+ "grad_norm": 1.6856895685195923,
6846
+ "learning_rate": 7.252459016393443e-05,
6847
+ "loss": 0.0313,
6848
+ "step": 19540
6849
+ },
6850
+ {
6851
+ "epoch": 95.47284929835266,
6852
+ "grad_norm": 1.281265139579773,
6853
+ "learning_rate": 7.239344262295082e-05,
6854
+ "loss": 0.0325,
6855
+ "step": 19560
6856
+ },
6857
+ {
6858
+ "epoch": 95.57046979865771,
6859
+ "grad_norm": 1.3441650867462158,
6860
+ "learning_rate": 7.226229508196721e-05,
6861
+ "loss": 0.0369,
6862
+ "step": 19580
6863
+ },
6864
+ {
6865
+ "epoch": 95.66809029896278,
6866
+ "grad_norm": 0.9338245391845703,
6867
+ "learning_rate": 7.213114754098361e-05,
6868
+ "loss": 0.0328,
6869
+ "step": 19600
6870
+ },
6871
+ {
6872
+ "epoch": 95.76571079926785,
6873
+ "grad_norm": 1.0416558980941772,
6874
+ "learning_rate": 7.2e-05,
6875
+ "loss": 0.0313,
6876
+ "step": 19620
6877
+ },
6878
+ {
6879
+ "epoch": 95.8633312995729,
6880
+ "grad_norm": 1.187015175819397,
6881
+ "learning_rate": 7.18688524590164e-05,
6882
+ "loss": 0.0389,
6883
+ "step": 19640
6884
+ },
6885
+ {
6886
+ "epoch": 95.96095179987798,
6887
+ "grad_norm": 1.7248045206069946,
6888
+ "learning_rate": 7.17377049180328e-05,
6889
+ "loss": 0.0389,
6890
+ "step": 19660
6891
+ },
6892
+ {
6893
+ "epoch": 96.05857230018304,
6894
+ "grad_norm": 1.244112253189087,
6895
+ "learning_rate": 7.160655737704918e-05,
6896
+ "loss": 0.0282,
6897
+ "step": 19680
6898
+ },
6899
+ {
6900
+ "epoch": 96.1561928004881,
6901
+ "grad_norm": 0.868563711643219,
6902
+ "learning_rate": 7.147540983606557e-05,
6903
+ "loss": 0.03,
6904
+ "step": 19700
6905
+ },
6906
+ {
6907
+ "epoch": 96.25381330079317,
6908
+ "grad_norm": 0.6851422190666199,
6909
+ "learning_rate": 7.134426229508198e-05,
6910
+ "loss": 0.0293,
6911
+ "step": 19720
6912
+ },
6913
+ {
6914
+ "epoch": 96.35143380109822,
6915
+ "grad_norm": 1.0482094287872314,
6916
+ "learning_rate": 7.121311475409837e-05,
6917
+ "loss": 0.0348,
6918
+ "step": 19740
6919
+ },
6920
+ {
6921
+ "epoch": 96.4490543014033,
6922
+ "grad_norm": 0.9821768403053284,
6923
+ "learning_rate": 7.108196721311475e-05,
6924
+ "loss": 0.0346,
6925
+ "step": 19760
6926
+ },
6927
+ {
6928
+ "epoch": 96.54667480170836,
6929
+ "grad_norm": 1.2944159507751465,
6930
+ "learning_rate": 7.095081967213116e-05,
6931
+ "loss": 0.033,
6932
+ "step": 19780
6933
+ },
6934
+ {
6935
+ "epoch": 96.64429530201342,
6936
+ "grad_norm": 1.797796368598938,
6937
+ "learning_rate": 7.081967213114755e-05,
6938
+ "loss": 0.0313,
6939
+ "step": 19800
6940
+ },
6941
+ {
6942
+ "epoch": 96.74191580231849,
6943
+ "grad_norm": 2.1053693294525146,
6944
+ "learning_rate": 7.068852459016394e-05,
6945
+ "loss": 0.0321,
6946
+ "step": 19820
6947
+ },
6948
+ {
6949
+ "epoch": 96.83953630262356,
6950
+ "grad_norm": 0.6129661202430725,
6951
+ "learning_rate": 7.055737704918033e-05,
6952
+ "loss": 0.0343,
6953
+ "step": 19840
6954
+ },
6955
+ {
6956
+ "epoch": 96.93715680292861,
6957
+ "grad_norm": 1.184906005859375,
6958
+ "learning_rate": 7.042622950819673e-05,
6959
+ "loss": 0.0335,
6960
+ "step": 19860
6961
+ },
6962
+ {
6963
+ "epoch": 97.03477730323368,
6964
+ "grad_norm": 1.0629398822784424,
6965
+ "learning_rate": 7.029508196721312e-05,
6966
+ "loss": 0.0336,
6967
+ "step": 19880
6968
+ },
6969
+ {
6970
+ "epoch": 97.13239780353874,
6971
+ "grad_norm": 1.0311895608901978,
6972
+ "learning_rate": 7.016393442622952e-05,
6973
+ "loss": 0.028,
6974
+ "step": 19900
6975
+ },
6976
+ {
6977
+ "epoch": 97.2300183038438,
6978
+ "grad_norm": 1.3785455226898193,
6979
+ "learning_rate": 7.003278688524591e-05,
6980
+ "loss": 0.0304,
6981
+ "step": 19920
6982
+ },
6983
+ {
6984
+ "epoch": 97.32763880414888,
6985
+ "grad_norm": 1.515749216079712,
6986
+ "learning_rate": 6.99016393442623e-05,
6987
+ "loss": 0.0314,
6988
+ "step": 19940
6989
+ },
6990
+ {
6991
+ "epoch": 97.42525930445393,
6992
+ "grad_norm": 1.5662028789520264,
6993
+ "learning_rate": 6.977049180327869e-05,
6994
+ "loss": 0.0302,
6995
+ "step": 19960
6996
+ },
6997
+ {
6998
+ "epoch": 97.522879804759,
6999
+ "grad_norm": 1.1467646360397339,
7000
+ "learning_rate": 6.963934426229508e-05,
7001
+ "loss": 0.0317,
7002
+ "step": 19980
7003
+ },
7004
+ {
7005
+ "epoch": 97.62050030506407,
7006
+ "grad_norm": 0.9327864646911621,
7007
+ "learning_rate": 6.950819672131148e-05,
7008
+ "loss": 0.0323,
7009
+ "step": 20000
7010
  }
7011
  ],
7012
  "logging_steps": 20,
 
7026
  "attributes": {}
7027
  }
7028
  },
7029
+ "total_flos": 2.1916893437732045e+17,
7030
  "train_batch_size": 1,
7031
  "trial_name": null,
7032
  "trial_params": null