DuongTrongChi commited on
Commit
541b073
·
verified ·
1 Parent(s): c1b799c

Training in progress, step 911, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:510a52ac805c222aef3cf677e392c568b0e01bfafa8b84d5fe860020a4affe93
3
  size 60010048
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:be633fd5b9a184214787cf8de804cd47d2d08122c6886a59a13dd6075ceb7cb7
3
  size 60010048
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cd03054be855d638dc8730b0926abbe4afba52392c7c1ae7bffc7808f73ee7c2
3
  size 30428180
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9edb22bd00df21c10ec53c4bbfa2093db527d86ac59bfb6f02154aa19d5da6c1
3
  size 30428180
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2eaf8013c84ba7b2a92613bbe740d03f2043c8adf3497981ed60c3e17ec19ae9
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:04e2e9566872b589840ca5036c48f962e578ce55c36abdd70f84617113393bbb
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.8318244170096022,
5
  "eval_steps": 500,
6
- "global_step": 758,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5313,6 +5313,1077 @@
5313
  "learning_rate": 3.773119605425401e-06,
5314
  "loss": 1.2571,
5315
  "step": 758
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5316
  }
5317
  ],
5318
  "logging_steps": 1,
@@ -5327,12 +6398,12 @@
5327
  "should_evaluate": false,
5328
  "should_log": false,
5329
  "should_save": true,
5330
- "should_training_stop": false
5331
  },
5332
  "attributes": {}
5333
  }
5334
  },
5335
- "total_flos": 4.6050522467731046e+17,
5336
  "train_batch_size": 4,
5337
  "trial_name": null,
5338
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9997256515775035,
5
  "eval_steps": 500,
6
+ "global_step": 911,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5313
  "learning_rate": 3.773119605425401e-06,
5314
  "loss": 1.2571,
5315
  "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.8329218106995885,
5319
+ "grad_norm": 0.2670471668243408,
5320
+ "learning_rate": 3.7484586929716402e-06,
5321
+ "loss": 1.1585,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.8340192043895748,
5326
+ "grad_norm": 0.2522693872451782,
5327
+ "learning_rate": 3.723797780517879e-06,
5328
+ "loss": 1.2441,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.8351165980795611,
5333
+ "grad_norm": 0.26325473189353943,
5334
+ "learning_rate": 3.699136868064119e-06,
5335
+ "loss": 1.231,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.8362139917695474,
5340
+ "grad_norm": 0.2654995024204254,
5341
+ "learning_rate": 3.674475955610358e-06,
5342
+ "loss": 1.2638,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.8373113854595337,
5347
+ "grad_norm": 0.24272461235523224,
5348
+ "learning_rate": 3.649815043156597e-06,
5349
+ "loss": 1.2356,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.83840877914952,
5354
+ "grad_norm": 0.3264164924621582,
5355
+ "learning_rate": 3.6251541307028365e-06,
5356
+ "loss": 1.2741,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.8395061728395061,
5361
+ "grad_norm": 0.2254675030708313,
5362
+ "learning_rate": 3.6004932182490754e-06,
5363
+ "loss": 1.1681,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.8406035665294924,
5368
+ "grad_norm": 0.25938257575035095,
5369
+ "learning_rate": 3.5758323057953147e-06,
5370
+ "loss": 1.1809,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.8417009602194787,
5375
+ "grad_norm": 0.27756911516189575,
5376
+ "learning_rate": 3.5511713933415536e-06,
5377
+ "loss": 1.2611,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.842798353909465,
5382
+ "grad_norm": 0.2840558886528015,
5383
+ "learning_rate": 3.526510480887793e-06,
5384
+ "loss": 1.2804,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.8438957475994513,
5389
+ "grad_norm": 0.28387823700904846,
5390
+ "learning_rate": 3.5018495684340327e-06,
5391
+ "loss": 1.2598,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.8449931412894376,
5396
+ "grad_norm": 0.27318140864372253,
5397
+ "learning_rate": 3.4771886559802716e-06,
5398
+ "loss": 1.2617,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.8460905349794239,
5403
+ "grad_norm": 0.24867716431617737,
5404
+ "learning_rate": 3.452527743526511e-06,
5405
+ "loss": 1.172,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.8471879286694102,
5410
+ "grad_norm": 0.24067752063274384,
5411
+ "learning_rate": 3.42786683107275e-06,
5412
+ "loss": 1.2622,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.8482853223593965,
5417
+ "grad_norm": 0.23819519579410553,
5418
+ "learning_rate": 3.403205918618989e-06,
5419
+ "loss": 1.2249,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.8493827160493828,
5424
+ "grad_norm": 0.2725595533847809,
5425
+ "learning_rate": 3.3785450061652285e-06,
5426
+ "loss": 1.1911,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.850480109739369,
5431
+ "grad_norm": 0.27524641156196594,
5432
+ "learning_rate": 3.3538840937114674e-06,
5433
+ "loss": 1.255,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.8515775034293552,
5438
+ "grad_norm": 0.24099332094192505,
5439
+ "learning_rate": 3.3292231812577068e-06,
5440
+ "loss": 1.2023,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.8526748971193415,
5445
+ "grad_norm": 0.2646848261356354,
5446
+ "learning_rate": 3.3045622688039457e-06,
5447
+ "loss": 1.197,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.8537722908093278,
5452
+ "grad_norm": 0.24707616865634918,
5453
+ "learning_rate": 3.2799013563501854e-06,
5454
+ "loss": 1.1769,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.8548696844993141,
5459
+ "grad_norm": 0.2570493817329407,
5460
+ "learning_rate": 3.2552404438964248e-06,
5461
+ "loss": 1.2645,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.8559670781893004,
5466
+ "grad_norm": 0.2723713517189026,
5467
+ "learning_rate": 3.2305795314426637e-06,
5468
+ "loss": 1.2125,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.8570644718792867,
5473
+ "grad_norm": 0.23607034981250763,
5474
+ "learning_rate": 3.205918618988903e-06,
5475
+ "loss": 1.2958,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.858161865569273,
5480
+ "grad_norm": 0.24119311571121216,
5481
+ "learning_rate": 3.181257706535142e-06,
5482
+ "loss": 1.2814,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.8592592592592593,
5487
+ "grad_norm": 0.2970694303512573,
5488
+ "learning_rate": 3.1565967940813812e-06,
5489
+ "loss": 1.1962,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.8603566529492456,
5494
+ "grad_norm": 0.24748800694942474,
5495
+ "learning_rate": 3.1319358816276206e-06,
5496
+ "loss": 1.2468,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.8614540466392319,
5501
+ "grad_norm": 0.2634020745754242,
5502
+ "learning_rate": 3.1072749691738595e-06,
5503
+ "loss": 1.2125,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.8625514403292182,
5508
+ "grad_norm": 0.24719679355621338,
5509
+ "learning_rate": 3.0826140567200992e-06,
5510
+ "loss": 1.2097,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.8636488340192043,
5515
+ "grad_norm": 0.28501445055007935,
5516
+ "learning_rate": 3.057953144266338e-06,
5517
+ "loss": 1.1259,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.8647462277091906,
5522
+ "grad_norm": 0.25702810287475586,
5523
+ "learning_rate": 3.0332922318125775e-06,
5524
+ "loss": 1.2083,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.8658436213991769,
5529
+ "grad_norm": 0.25063031911849976,
5530
+ "learning_rate": 3.0086313193588164e-06,
5531
+ "loss": 1.172,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.8669410150891632,
5536
+ "grad_norm": 0.2768210172653198,
5537
+ "learning_rate": 2.9839704069050557e-06,
5538
+ "loss": 1.181,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.8680384087791495,
5543
+ "grad_norm": 0.24431820213794708,
5544
+ "learning_rate": 2.959309494451295e-06,
5545
+ "loss": 1.2165,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.8691358024691358,
5550
+ "grad_norm": 0.2454931139945984,
5551
+ "learning_rate": 2.934648581997534e-06,
5552
+ "loss": 1.2469,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.8702331961591221,
5557
+ "grad_norm": 0.2588542401790619,
5558
+ "learning_rate": 2.9099876695437733e-06,
5559
+ "loss": 1.2271,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.8713305898491084,
5564
+ "grad_norm": 0.22791962325572968,
5565
+ "learning_rate": 2.885326757090012e-06,
5566
+ "loss": 1.2226,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.8724279835390947,
5571
+ "grad_norm": 0.25886085629463196,
5572
+ "learning_rate": 2.860665844636252e-06,
5573
+ "loss": 1.2904,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.873525377229081,
5578
+ "grad_norm": 0.24065649509429932,
5579
+ "learning_rate": 2.8360049321824913e-06,
5580
+ "loss": 1.201,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.8746227709190673,
5585
+ "grad_norm": 0.2704163193702698,
5586
+ "learning_rate": 2.81134401972873e-06,
5587
+ "loss": 1.2145,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.8757201646090536,
5592
+ "grad_norm": 0.25260040163993835,
5593
+ "learning_rate": 2.7866831072749695e-06,
5594
+ "loss": 1.2277,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.8768175582990397,
5599
+ "grad_norm": 0.2618052363395691,
5600
+ "learning_rate": 2.7620221948212084e-06,
5601
+ "loss": 1.2252,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.877914951989026,
5606
+ "grad_norm": 0.29944562911987305,
5607
+ "learning_rate": 2.7373612823674478e-06,
5608
+ "loss": 1.2221,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.8790123456790123,
5613
+ "grad_norm": 0.2519710958003998,
5614
+ "learning_rate": 2.712700369913687e-06,
5615
+ "loss": 1.2022,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.8801097393689986,
5620
+ "grad_norm": 0.29498758912086487,
5621
+ "learning_rate": 2.688039457459926e-06,
5622
+ "loss": 1.1939,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.8812071330589849,
5627
+ "grad_norm": 0.3040591776371002,
5628
+ "learning_rate": 2.6633785450061657e-06,
5629
+ "loss": 1.1721,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.8823045267489712,
5634
+ "grad_norm": 0.24407289922237396,
5635
+ "learning_rate": 2.6387176325524042e-06,
5636
+ "loss": 1.281,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.8834019204389575,
5641
+ "grad_norm": 0.3141189217567444,
5642
+ "learning_rate": 2.614056720098644e-06,
5643
+ "loss": 1.1731,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.8844993141289438,
5648
+ "grad_norm": 0.2557481527328491,
5649
+ "learning_rate": 2.5893958076448833e-06,
5650
+ "loss": 1.2577,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.8855967078189301,
5655
+ "grad_norm": 0.256987601518631,
5656
+ "learning_rate": 2.5647348951911222e-06,
5657
+ "loss": 1.1678,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.8866941015089164,
5662
+ "grad_norm": 0.26355645060539246,
5663
+ "learning_rate": 2.5400739827373616e-06,
5664
+ "loss": 1.2432,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.8877914951989027,
5669
+ "grad_norm": 0.2442682534456253,
5670
+ "learning_rate": 2.5154130702836005e-06,
5671
+ "loss": 1.3616,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.8888888888888888,
5676
+ "grad_norm": 0.29615169763565063,
5677
+ "learning_rate": 2.49075215782984e-06,
5678
+ "loss": 1.2012,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.8899862825788751,
5683
+ "grad_norm": 0.25238725543022156,
5684
+ "learning_rate": 2.466091245376079e-06,
5685
+ "loss": 1.1903,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.8910836762688614,
5690
+ "grad_norm": 0.25462445616722107,
5691
+ "learning_rate": 2.441430332922318e-06,
5692
+ "loss": 1.1539,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.8921810699588477,
5697
+ "grad_norm": 0.2639220356941223,
5698
+ "learning_rate": 2.416769420468558e-06,
5699
+ "loss": 1.1004,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.893278463648834,
5704
+ "grad_norm": 0.287663072347641,
5705
+ "learning_rate": 2.3921085080147967e-06,
5706
+ "loss": 1.2643,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.8943758573388203,
5711
+ "grad_norm": 0.24938149750232697,
5712
+ "learning_rate": 2.367447595561036e-06,
5713
+ "loss": 1.3602,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.8954732510288066,
5718
+ "grad_norm": 0.2602677643299103,
5719
+ "learning_rate": 2.342786683107275e-06,
5720
+ "loss": 1.2043,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.8965706447187929,
5725
+ "grad_norm": 0.25690793991088867,
5726
+ "learning_rate": 2.3181257706535143e-06,
5727
+ "loss": 1.1586,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.8976680384087792,
5732
+ "grad_norm": 0.2565641701221466,
5733
+ "learning_rate": 2.2934648581997536e-06,
5734
+ "loss": 1.2512,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.8987654320987655,
5739
+ "grad_norm": 0.2628938853740692,
5740
+ "learning_rate": 2.268803945745993e-06,
5741
+ "loss": 1.1438,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.8998628257887518,
5746
+ "grad_norm": 0.23171505331993103,
5747
+ "learning_rate": 2.244143033292232e-06,
5748
+ "loss": 1.1741,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.900960219478738,
5753
+ "grad_norm": 0.2506265640258789,
5754
+ "learning_rate": 2.219482120838471e-06,
5755
+ "loss": 1.1697,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.9020576131687242,
5760
+ "grad_norm": 0.27947020530700684,
5761
+ "learning_rate": 2.1948212083847105e-06,
5762
+ "loss": 1.1571,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.9031550068587105,
5767
+ "grad_norm": 0.2594459354877472,
5768
+ "learning_rate": 2.1701602959309494e-06,
5769
+ "loss": 1.2105,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.9042524005486968,
5774
+ "grad_norm": 0.24918478727340698,
5775
+ "learning_rate": 2.1454993834771887e-06,
5776
+ "loss": 1.2497,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.9053497942386831,
5781
+ "grad_norm": 0.2924598157405853,
5782
+ "learning_rate": 2.120838471023428e-06,
5783
+ "loss": 1.3235,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.9064471879286694,
5788
+ "grad_norm": 0.24772346019744873,
5789
+ "learning_rate": 2.0961775585696674e-06,
5790
+ "loss": 1.2818,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.9075445816186557,
5795
+ "grad_norm": 0.2838573157787323,
5796
+ "learning_rate": 2.0715166461159063e-06,
5797
+ "loss": 1.1918,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.908641975308642,
5802
+ "grad_norm": 0.26798808574676514,
5803
+ "learning_rate": 2.0468557336621456e-06,
5804
+ "loss": 1.1874,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.9097393689986283,
5809
+ "grad_norm": 0.2984868586063385,
5810
+ "learning_rate": 2.022194821208385e-06,
5811
+ "loss": 1.2417,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.9108367626886146,
5816
+ "grad_norm": 0.27059322595596313,
5817
+ "learning_rate": 1.9975339087546243e-06,
5818
+ "loss": 1.2273,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.9119341563786009,
5823
+ "grad_norm": 0.2572599947452545,
5824
+ "learning_rate": 1.9728729963008632e-06,
5825
+ "loss": 1.186,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.9130315500685872,
5830
+ "grad_norm": 0.27578267455101013,
5831
+ "learning_rate": 1.9482120838471025e-06,
5832
+ "loss": 1.1343,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.9141289437585733,
5837
+ "grad_norm": 0.25030946731567383,
5838
+ "learning_rate": 1.9235511713933415e-06,
5839
+ "loss": 1.2599,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.9152263374485596,
5844
+ "grad_norm": 0.23245501518249512,
5845
+ "learning_rate": 1.8988902589395808e-06,
5846
+ "loss": 1.2471,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.9163237311385459,
5851
+ "grad_norm": 0.23760074377059937,
5852
+ "learning_rate": 1.8742293464858201e-06,
5853
+ "loss": 1.2457,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.9174211248285322,
5858
+ "grad_norm": 0.2975304424762726,
5859
+ "learning_rate": 1.8495684340320595e-06,
5860
+ "loss": 1.2025,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.9185185185185185,
5865
+ "grad_norm": 0.240847647190094,
5866
+ "learning_rate": 1.8249075215782986e-06,
5867
+ "loss": 1.2289,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.9196159122085048,
5872
+ "grad_norm": 0.23974715173244476,
5873
+ "learning_rate": 1.8002466091245377e-06,
5874
+ "loss": 1.2117,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.9207133058984911,
5879
+ "grad_norm": 0.27474868297576904,
5880
+ "learning_rate": 1.7755856966707768e-06,
5881
+ "loss": 1.2863,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.9218106995884774,
5886
+ "grad_norm": 0.28905266523361206,
5887
+ "learning_rate": 1.7509247842170164e-06,
5888
+ "loss": 1.2041,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.9229080932784637,
5893
+ "grad_norm": 0.25439831614494324,
5894
+ "learning_rate": 1.7262638717632555e-06,
5895
+ "loss": 1.2385,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.92400548696845,
5900
+ "grad_norm": 0.2607545256614685,
5901
+ "learning_rate": 1.7016029593094946e-06,
5902
+ "loss": 1.2837,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.9251028806584363,
5907
+ "grad_norm": 0.34511038661003113,
5908
+ "learning_rate": 1.6769420468557337e-06,
5909
+ "loss": 1.2155,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.9262002743484224,
5914
+ "grad_norm": 0.26956722140312195,
5915
+ "learning_rate": 1.6522811344019728e-06,
5916
+ "loss": 1.1794,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.9272976680384087,
5921
+ "grad_norm": 0.25592947006225586,
5922
+ "learning_rate": 1.6276202219482124e-06,
5923
+ "loss": 1.1996,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.928395061728395,
5928
+ "grad_norm": 0.25805869698524475,
5929
+ "learning_rate": 1.6029593094944515e-06,
5930
+ "loss": 1.2655,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.9294924554183813,
5935
+ "grad_norm": 0.2707035541534424,
5936
+ "learning_rate": 1.5782983970406906e-06,
5937
+ "loss": 1.3274,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.9305898491083676,
5942
+ "grad_norm": 0.2707644999027252,
5943
+ "learning_rate": 1.5536374845869297e-06,
5944
+ "loss": 1.2375,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.9316872427983539,
5949
+ "grad_norm": 0.2761702537536621,
5950
+ "learning_rate": 1.528976572133169e-06,
5951
+ "loss": 1.1769,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.9327846364883402,
5956
+ "grad_norm": 0.26850977540016174,
5957
+ "learning_rate": 1.5043156596794082e-06,
5958
+ "loss": 1.1833,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.9338820301783265,
5963
+ "grad_norm": 0.26352792978286743,
5964
+ "learning_rate": 1.4796547472256475e-06,
5965
+ "loss": 1.2284,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.9349794238683128,
5970
+ "grad_norm": 0.24324378371238708,
5971
+ "learning_rate": 1.4549938347718866e-06,
5972
+ "loss": 1.2005,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.9360768175582991,
5977
+ "grad_norm": 0.24241109192371368,
5978
+ "learning_rate": 1.430332922318126e-06,
5979
+ "loss": 1.2059,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.9371742112482854,
5984
+ "grad_norm": 0.26090410351753235,
5985
+ "learning_rate": 1.405672009864365e-06,
5986
+ "loss": 1.2379,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.9382716049382716,
5991
+ "grad_norm": 0.2450953871011734,
5992
+ "learning_rate": 1.3810110974106042e-06,
5993
+ "loss": 1.2946,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.9393689986282578,
5998
+ "grad_norm": 0.24933604896068573,
5999
+ "learning_rate": 1.3563501849568435e-06,
6000
+ "loss": 1.1612,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.9404663923182441,
6005
+ "grad_norm": 0.2418948858976364,
6006
+ "learning_rate": 1.3316892725030829e-06,
6007
+ "loss": 1.229,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.9415637860082304,
6012
+ "grad_norm": 0.26510903239250183,
6013
+ "learning_rate": 1.307028360049322e-06,
6014
+ "loss": 1.1778,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.9426611796982167,
6019
+ "grad_norm": 0.2577672302722931,
6020
+ "learning_rate": 1.2823674475955611e-06,
6021
+ "loss": 1.2076,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.943758573388203,
6026
+ "grad_norm": 0.24987109005451202,
6027
+ "learning_rate": 1.2577065351418002e-06,
6028
+ "loss": 1.2105,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.9448559670781893,
6033
+ "grad_norm": 0.25255313515663147,
6034
+ "learning_rate": 1.2330456226880396e-06,
6035
+ "loss": 1.1777,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.9459533607681756,
6040
+ "grad_norm": 0.2602977752685547,
6041
+ "learning_rate": 1.208384710234279e-06,
6042
+ "loss": 1.2409,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.9470507544581619,
6047
+ "grad_norm": 0.2703125476837158,
6048
+ "learning_rate": 1.183723797780518e-06,
6049
+ "loss": 1.3063,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.9481481481481482,
6054
+ "grad_norm": 0.23141594231128693,
6055
+ "learning_rate": 1.1590628853267571e-06,
6056
+ "loss": 1.223,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.9492455418381345,
6061
+ "grad_norm": 0.26518914103507996,
6062
+ "learning_rate": 1.1344019728729965e-06,
6063
+ "loss": 1.2147,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.9503429355281207,
6068
+ "grad_norm": 0.28556376695632935,
6069
+ "learning_rate": 1.1097410604192356e-06,
6070
+ "loss": 1.1871,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.951440329218107,
6075
+ "grad_norm": 0.2666340172290802,
6076
+ "learning_rate": 1.0850801479654747e-06,
6077
+ "loss": 1.1842,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.9525377229080932,
6082
+ "grad_norm": 0.23198631405830383,
6083
+ "learning_rate": 1.060419235511714e-06,
6084
+ "loss": 1.2356,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.9536351165980795,
6089
+ "grad_norm": 0.2616305947303772,
6090
+ "learning_rate": 1.0357583230579532e-06,
6091
+ "loss": 1.3017,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.9547325102880658,
6096
+ "grad_norm": 0.2699725925922394,
6097
+ "learning_rate": 1.0110974106041925e-06,
6098
+ "loss": 1.1505,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.9558299039780521,
6103
+ "grad_norm": 0.2656715512275696,
6104
+ "learning_rate": 9.864364981504316e-07,
6105
+ "loss": 1.2487,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.9569272976680384,
6110
+ "grad_norm": 0.24682074785232544,
6111
+ "learning_rate": 9.617755856966707e-07,
6112
+ "loss": 1.2081,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.9580246913580247,
6117
+ "grad_norm": 0.26323434710502625,
6118
+ "learning_rate": 9.371146732429101e-07,
6119
+ "loss": 1.2228,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.959122085048011,
6124
+ "grad_norm": 0.2442006766796112,
6125
+ "learning_rate": 9.124537607891493e-07,
6126
+ "loss": 1.2603,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.9602194787379973,
6131
+ "grad_norm": 0.28010329604148865,
6132
+ "learning_rate": 8.877928483353884e-07,
6133
+ "loss": 1.2486,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.9613168724279836,
6138
+ "grad_norm": 0.2618809640407562,
6139
+ "learning_rate": 8.631319358816277e-07,
6140
+ "loss": 1.2433,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.9624142661179699,
6145
+ "grad_norm": 0.2693452537059784,
6146
+ "learning_rate": 8.384710234278669e-07,
6147
+ "loss": 1.2296,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.9635116598079561,
6152
+ "grad_norm": 0.256401926279068,
6153
+ "learning_rate": 8.138101109741062e-07,
6154
+ "loss": 1.2447,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.9646090534979423,
6159
+ "grad_norm": 0.2823677659034729,
6160
+ "learning_rate": 7.891491985203453e-07,
6161
+ "loss": 1.1789,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.9657064471879286,
6166
+ "grad_norm": 0.29250475764274597,
6167
+ "learning_rate": 7.644882860665845e-07,
6168
+ "loss": 1.1497,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.9668038408779149,
6173
+ "grad_norm": 0.25502100586891174,
6174
+ "learning_rate": 7.398273736128238e-07,
6175
+ "loss": 1.2713,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.9679012345679012,
6180
+ "grad_norm": 0.2642868161201477,
6181
+ "learning_rate": 7.15166461159063e-07,
6182
+ "loss": 1.2178,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.9689986282578875,
6187
+ "grad_norm": 0.25020915269851685,
6188
+ "learning_rate": 6.905055487053021e-07,
6189
+ "loss": 1.2125,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.9700960219478738,
6194
+ "grad_norm": 0.25948819518089294,
6195
+ "learning_rate": 6.658446362515414e-07,
6196
+ "loss": 1.2355,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.9711934156378601,
6201
+ "grad_norm": 0.25626036524772644,
6202
+ "learning_rate": 6.411837237977806e-07,
6203
+ "loss": 1.227,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.9722908093278464,
6208
+ "grad_norm": 0.24282559752464294,
6209
+ "learning_rate": 6.165228113440198e-07,
6210
+ "loss": 1.2019,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.9733882030178327,
6215
+ "grad_norm": 0.2501373291015625,
6216
+ "learning_rate": 5.91861898890259e-07,
6217
+ "loss": 1.2002,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.974485596707819,
6222
+ "grad_norm": 0.27020156383514404,
6223
+ "learning_rate": 5.672009864364982e-07,
6224
+ "loss": 1.2451,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.9755829903978052,
6229
+ "grad_norm": 0.2579203248023987,
6230
+ "learning_rate": 5.425400739827374e-07,
6231
+ "loss": 1.277,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.9766803840877915,
6236
+ "grad_norm": 0.24406872689723969,
6237
+ "learning_rate": 5.178791615289766e-07,
6238
+ "loss": 1.2816,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.9777777777777777,
6243
+ "grad_norm": 0.2537878453731537,
6244
+ "learning_rate": 4.932182490752158e-07,
6245
+ "loss": 1.23,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.978875171467764,
6250
+ "grad_norm": 0.2799593508243561,
6251
+ "learning_rate": 4.6855733662145503e-07,
6252
+ "loss": 1.2479,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.9799725651577503,
6257
+ "grad_norm": 0.23126421868801117,
6258
+ "learning_rate": 4.438964241676942e-07,
6259
+ "loss": 1.2648,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.9810699588477366,
6264
+ "grad_norm": 0.2650638818740845,
6265
+ "learning_rate": 4.1923551171393343e-07,
6266
+ "loss": 1.2301,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.9821673525377229,
6271
+ "grad_norm": 0.27923524379730225,
6272
+ "learning_rate": 3.9457459926017265e-07,
6273
+ "loss": 1.188,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.9832647462277092,
6278
+ "grad_norm": 0.4018268287181854,
6279
+ "learning_rate": 3.699136868064119e-07,
6280
+ "loss": 1.234,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.9843621399176955,
6285
+ "grad_norm": 0.26936185359954834,
6286
+ "learning_rate": 3.4525277435265105e-07,
6287
+ "loss": 1.2962,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.9854595336076818,
6292
+ "grad_norm": 0.2637123167514801,
6293
+ "learning_rate": 3.205918618988903e-07,
6294
+ "loss": 1.231,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.9865569272976681,
6299
+ "grad_norm": 0.2618735730648041,
6300
+ "learning_rate": 2.959309494451295e-07,
6301
+ "loss": 1.2333,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.9876543209876543,
6306
+ "grad_norm": 0.2631166875362396,
6307
+ "learning_rate": 2.712700369913687e-07,
6308
+ "loss": 1.2565,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.9887517146776406,
6313
+ "grad_norm": 0.25191444158554077,
6314
+ "learning_rate": 2.466091245376079e-07,
6315
+ "loss": 1.2109,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.9898491083676269,
6320
+ "grad_norm": 0.24879272282123566,
6321
+ "learning_rate": 2.219482120838471e-07,
6322
+ "loss": 1.2384,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.9909465020576131,
6327
+ "grad_norm": 0.2868032455444336,
6328
+ "learning_rate": 1.9728729963008633e-07,
6329
+ "loss": 1.1736,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.9920438957475994,
6334
+ "grad_norm": 0.25794628262519836,
6335
+ "learning_rate": 1.7262638717632553e-07,
6336
+ "loss": 1.1557,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.9931412894375857,
6341
+ "grad_norm": 0.29972419142723083,
6342
+ "learning_rate": 1.4796547472256475e-07,
6343
+ "loss": 1.1637,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.994238683127572,
6348
+ "grad_norm": 0.24752122163772583,
6349
+ "learning_rate": 1.2330456226880395e-07,
6350
+ "loss": 1.2375,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.9953360768175583,
6355
+ "grad_norm": 0.2406410425901413,
6356
+ "learning_rate": 9.864364981504316e-08,
6357
+ "loss": 1.319,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.9964334705075446,
6362
+ "grad_norm": 0.2575162351131439,
6363
+ "learning_rate": 7.398273736128238e-08,
6364
+ "loss": 1.3036,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.9975308641975309,
6369
+ "grad_norm": 0.2430945187807083,
6370
+ "learning_rate": 4.932182490752158e-08,
6371
+ "loss": 1.2212,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.9986282578875172,
6376
+ "grad_norm": 0.2730814218521118,
6377
+ "learning_rate": 2.466091245376079e-08,
6378
+ "loss": 1.1903,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.9997256515775035,
6383
+ "grad_norm": 0.294842928647995,
6384
+ "learning_rate": 0.0,
6385
+ "loss": 1.2108,
6386
+ "step": 911
6387
  }
6388
  ],
6389
  "logging_steps": 1,
 
6398
  "should_evaluate": false,
6399
  "should_log": false,
6400
  "should_save": true,
6401
+ "should_training_stop": true
6402
  },
6403
  "attributes": {}
6404
  }
6405
  },
6406
+ "total_flos": 5.538444460514181e+17,
6407
  "train_batch_size": 4,
6408
  "trial_name": null,
6409
  "trial_params": null