ManyingZ commited on
Commit
1e583b9
·
verified ·
1 Parent(s): d224859

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +1753 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f1b7f2f278e302865c60c8d05e6357ee7af1a0ad27a440e023bc9791b3008605
3
  size 3158328
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a61eceda4f3e583f262e8ebf73b2c9e19f6b690f584bb98977ea218db783977a
3
  size 3158328
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4a8e21e40536ee857c1b466c73591efdd0af3fbc6924011c28cb079111a4e1ce
3
  size 1687034
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e093ed1c707300997497dbc1e6b17c4b6c332b015791188ac5b2a741423a2c5d
3
  size 1687034
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c44cd996c8ed27623113c0cd6c151d153a43988c9f84544695b9113185a594c6
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40904a91aa9d0b18232b04f286c69d79a167a7891f9c1462d77da5a10280249d
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3345390e24b1316ef013c9196db09afdb816048bd66321ccb9bd8a5ae5fa8c0f
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b907aed6e1e57922cb480424961aba116ee5b766ca9857e1376e5fbbce10214f
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 48.810250152532035,
5
  "eval_steps": 500,
6
- "global_step": 10000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3507,6 +3507,1756 @@
3507
  "learning_rate": 0.00013508196721311478,
3508
  "loss": 0.0949,
3509
  "step": 10000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3510
  }
3511
  ],
3512
  "logging_steps": 20,
@@ -3526,7 +5276,7 @@
3526
  "attributes": {}
3527
  }
3528
  },
3529
- "total_flos": 1.0956762891676877e+17,
3530
  "train_batch_size": 1,
3531
  "trial_name": null,
3532
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 73.21537522879805,
5
  "eval_steps": 500,
6
+ "global_step": 15000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3507
  "learning_rate": 0.00013508196721311478,
3508
  "loss": 0.0949,
3509
  "step": 10000
3510
+ },
3511
+ {
3512
+ "epoch": 48.9078706528371,
3513
+ "grad_norm": 2.472350835800171,
3514
+ "learning_rate": 0.00013495081967213114,
3515
+ "loss": 0.0868,
3516
+ "step": 10020
3517
+ },
3518
+ {
3519
+ "epoch": 49.00549115314216,
3520
+ "grad_norm": 2.2226836681365967,
3521
+ "learning_rate": 0.00013481967213114756,
3522
+ "loss": 0.0984,
3523
+ "step": 10040
3524
+ },
3525
+ {
3526
+ "epoch": 49.10311165344722,
3527
+ "grad_norm": 1.5109550952911377,
3528
+ "learning_rate": 0.00013468852459016395,
3529
+ "loss": 0.0608,
3530
+ "step": 10060
3531
+ },
3532
+ {
3533
+ "epoch": 49.20073215375229,
3534
+ "grad_norm": 2.532590627670288,
3535
+ "learning_rate": 0.00013455737704918034,
3536
+ "loss": 0.0695,
3537
+ "step": 10080
3538
+ },
3539
+ {
3540
+ "epoch": 49.298352654057354,
3541
+ "grad_norm": 2.6609067916870117,
3542
+ "learning_rate": 0.00013442622950819673,
3543
+ "loss": 0.082,
3544
+ "step": 10100
3545
+ },
3546
+ {
3547
+ "epoch": 49.395973154362416,
3548
+ "grad_norm": 2.5846164226531982,
3549
+ "learning_rate": 0.00013429508196721311,
3550
+ "loss": 0.08,
3551
+ "step": 10120
3552
+ },
3553
+ {
3554
+ "epoch": 49.49359365466748,
3555
+ "grad_norm": 2.4516260623931885,
3556
+ "learning_rate": 0.00013416393442622953,
3557
+ "loss": 0.0796,
3558
+ "step": 10140
3559
+ },
3560
+ {
3561
+ "epoch": 49.59121415497255,
3562
+ "grad_norm": 2.357771158218384,
3563
+ "learning_rate": 0.0001340327868852459,
3564
+ "loss": 0.0823,
3565
+ "step": 10160
3566
+ },
3567
+ {
3568
+ "epoch": 49.68883465527761,
3569
+ "grad_norm": 2.575505018234253,
3570
+ "learning_rate": 0.0001339016393442623,
3571
+ "loss": 0.0899,
3572
+ "step": 10180
3573
+ },
3574
+ {
3575
+ "epoch": 49.78645515558267,
3576
+ "grad_norm": 2.2076785564422607,
3577
+ "learning_rate": 0.0001337704918032787,
3578
+ "loss": 0.0822,
3579
+ "step": 10200
3580
+ },
3581
+ {
3582
+ "epoch": 49.884075655887735,
3583
+ "grad_norm": 2.361694097518921,
3584
+ "learning_rate": 0.0001336393442622951,
3585
+ "loss": 0.0913,
3586
+ "step": 10220
3587
+ },
3588
+ {
3589
+ "epoch": 49.981696156192804,
3590
+ "grad_norm": 2.3063478469848633,
3591
+ "learning_rate": 0.00013350819672131148,
3592
+ "loss": 0.0919,
3593
+ "step": 10240
3594
+ },
3595
+ {
3596
+ "epoch": 50.079316656497866,
3597
+ "grad_norm": 1.9585156440734863,
3598
+ "learning_rate": 0.00013337704918032787,
3599
+ "loss": 0.0767,
3600
+ "step": 10260
3601
+ },
3602
+ {
3603
+ "epoch": 50.17693715680293,
3604
+ "grad_norm": 3.1279983520507812,
3605
+ "learning_rate": 0.00013324590163934428,
3606
+ "loss": 0.0755,
3607
+ "step": 10280
3608
+ },
3609
+ {
3610
+ "epoch": 50.27455765710799,
3611
+ "grad_norm": 2.0095512866973877,
3612
+ "learning_rate": 0.00013311475409836067,
3613
+ "loss": 0.0735,
3614
+ "step": 10300
3615
+ },
3616
+ {
3617
+ "epoch": 50.37217815741306,
3618
+ "grad_norm": 3.011828899383545,
3619
+ "learning_rate": 0.00013298360655737706,
3620
+ "loss": 0.0766,
3621
+ "step": 10320
3622
+ },
3623
+ {
3624
+ "epoch": 50.46979865771812,
3625
+ "grad_norm": 2.0386946201324463,
3626
+ "learning_rate": 0.00013285245901639345,
3627
+ "loss": 0.0738,
3628
+ "step": 10340
3629
+ },
3630
+ {
3631
+ "epoch": 50.567419158023185,
3632
+ "grad_norm": 2.0549607276916504,
3633
+ "learning_rate": 0.00013272131147540984,
3634
+ "loss": 0.089,
3635
+ "step": 10360
3636
+ },
3637
+ {
3638
+ "epoch": 50.66503965832825,
3639
+ "grad_norm": 2.816814422607422,
3640
+ "learning_rate": 0.00013259016393442623,
3641
+ "loss": 0.0849,
3642
+ "step": 10380
3643
+ },
3644
+ {
3645
+ "epoch": 50.76266015863331,
3646
+ "grad_norm": 2.2058887481689453,
3647
+ "learning_rate": 0.00013245901639344262,
3648
+ "loss": 0.0842,
3649
+ "step": 10400
3650
+ },
3651
+ {
3652
+ "epoch": 50.86028065893838,
3653
+ "grad_norm": 2.2805745601654053,
3654
+ "learning_rate": 0.00013232786885245904,
3655
+ "loss": 0.0888,
3656
+ "step": 10420
3657
+ },
3658
+ {
3659
+ "epoch": 50.95790115924344,
3660
+ "grad_norm": 2.602515697479248,
3661
+ "learning_rate": 0.00013219672131147543,
3662
+ "loss": 0.0867,
3663
+ "step": 10440
3664
+ },
3665
+ {
3666
+ "epoch": 51.0555216595485,
3667
+ "grad_norm": 1.9022042751312256,
3668
+ "learning_rate": 0.0001320655737704918,
3669
+ "loss": 0.0748,
3670
+ "step": 10460
3671
+ },
3672
+ {
3673
+ "epoch": 51.153142159853566,
3674
+ "grad_norm": 2.4302797317504883,
3675
+ "learning_rate": 0.0001319344262295082,
3676
+ "loss": 0.0693,
3677
+ "step": 10480
3678
+ },
3679
+ {
3680
+ "epoch": 51.250762660158635,
3681
+ "grad_norm": 1.5306838750839233,
3682
+ "learning_rate": 0.0001318032786885246,
3683
+ "loss": 0.0748,
3684
+ "step": 10500
3685
+ },
3686
+ {
3687
+ "epoch": 51.3483831604637,
3688
+ "grad_norm": 2.035921812057495,
3689
+ "learning_rate": 0.000131672131147541,
3690
+ "loss": 0.0728,
3691
+ "step": 10520
3692
+ },
3693
+ {
3694
+ "epoch": 51.44600366076876,
3695
+ "grad_norm": 1.8543293476104736,
3696
+ "learning_rate": 0.00013154098360655737,
3697
+ "loss": 0.0752,
3698
+ "step": 10540
3699
+ },
3700
+ {
3701
+ "epoch": 51.54362416107382,
3702
+ "grad_norm": 2.405411720275879,
3703
+ "learning_rate": 0.0001314098360655738,
3704
+ "loss": 0.0775,
3705
+ "step": 10560
3706
+ },
3707
+ {
3708
+ "epoch": 51.64124466137889,
3709
+ "grad_norm": 2.767051935195923,
3710
+ "learning_rate": 0.00013127868852459018,
3711
+ "loss": 0.075,
3712
+ "step": 10580
3713
+ },
3714
+ {
3715
+ "epoch": 51.738865161683954,
3716
+ "grad_norm": 2.200438976287842,
3717
+ "learning_rate": 0.00013114754098360654,
3718
+ "loss": 0.084,
3719
+ "step": 10600
3720
+ },
3721
+ {
3722
+ "epoch": 51.836485661989016,
3723
+ "grad_norm": 2.7286131381988525,
3724
+ "learning_rate": 0.00013101639344262296,
3725
+ "loss": 0.0863,
3726
+ "step": 10620
3727
+ },
3728
+ {
3729
+ "epoch": 51.93410616229408,
3730
+ "grad_norm": 1.557892084121704,
3731
+ "learning_rate": 0.00013088524590163935,
3732
+ "loss": 0.0832,
3733
+ "step": 10640
3734
+ },
3735
+ {
3736
+ "epoch": 52.03172666259915,
3737
+ "grad_norm": 1.6213957071304321,
3738
+ "learning_rate": 0.00013075409836065576,
3739
+ "loss": 0.0835,
3740
+ "step": 10660
3741
+ },
3742
+ {
3743
+ "epoch": 52.12934716290421,
3744
+ "grad_norm": 1.9538192749023438,
3745
+ "learning_rate": 0.00013062295081967213,
3746
+ "loss": 0.0632,
3747
+ "step": 10680
3748
+ },
3749
+ {
3750
+ "epoch": 52.22696766320927,
3751
+ "grad_norm": 1.5224443674087524,
3752
+ "learning_rate": 0.00013049180327868854,
3753
+ "loss": 0.0691,
3754
+ "step": 10700
3755
+ },
3756
+ {
3757
+ "epoch": 52.324588163514335,
3758
+ "grad_norm": 2.0320827960968018,
3759
+ "learning_rate": 0.00013036065573770493,
3760
+ "loss": 0.0777,
3761
+ "step": 10720
3762
+ },
3763
+ {
3764
+ "epoch": 52.422208663819404,
3765
+ "grad_norm": 2.9247395992279053,
3766
+ "learning_rate": 0.00013022950819672132,
3767
+ "loss": 0.0738,
3768
+ "step": 10740
3769
+ },
3770
+ {
3771
+ "epoch": 52.51982916412447,
3772
+ "grad_norm": 2.0458271503448486,
3773
+ "learning_rate": 0.0001300983606557377,
3774
+ "loss": 0.0716,
3775
+ "step": 10760
3776
+ },
3777
+ {
3778
+ "epoch": 52.61744966442953,
3779
+ "grad_norm": 2.1657023429870605,
3780
+ "learning_rate": 0.0001299672131147541,
3781
+ "loss": 0.0798,
3782
+ "step": 10780
3783
+ },
3784
+ {
3785
+ "epoch": 52.71507016473459,
3786
+ "grad_norm": 2.819549798965454,
3787
+ "learning_rate": 0.00012983606557377052,
3788
+ "loss": 0.0869,
3789
+ "step": 10800
3790
+ },
3791
+ {
3792
+ "epoch": 52.81269066503966,
3793
+ "grad_norm": 2.455775737762451,
3794
+ "learning_rate": 0.00012970491803278688,
3795
+ "loss": 0.0784,
3796
+ "step": 10820
3797
+ },
3798
+ {
3799
+ "epoch": 52.91031116534472,
3800
+ "grad_norm": 2.803501844406128,
3801
+ "learning_rate": 0.0001295737704918033,
3802
+ "loss": 0.0802,
3803
+ "step": 10840
3804
+ },
3805
+ {
3806
+ "epoch": 53.007931665649785,
3807
+ "grad_norm": 2.2946598529815674,
3808
+ "learning_rate": 0.00012944262295081968,
3809
+ "loss": 0.0767,
3810
+ "step": 10860
3811
+ },
3812
+ {
3813
+ "epoch": 53.10555216595485,
3814
+ "grad_norm": 1.9233254194259644,
3815
+ "learning_rate": 0.00012931147540983607,
3816
+ "loss": 0.0652,
3817
+ "step": 10880
3818
+ },
3819
+ {
3820
+ "epoch": 53.20317266625992,
3821
+ "grad_norm": 1.8651479482650757,
3822
+ "learning_rate": 0.00012918032786885246,
3823
+ "loss": 0.0675,
3824
+ "step": 10900
3825
+ },
3826
+ {
3827
+ "epoch": 53.30079316656498,
3828
+ "grad_norm": 2.216233253479004,
3829
+ "learning_rate": 0.00012904918032786885,
3830
+ "loss": 0.0716,
3831
+ "step": 10920
3832
+ },
3833
+ {
3834
+ "epoch": 53.39841366687004,
3835
+ "grad_norm": 2.591519355773926,
3836
+ "learning_rate": 0.00012891803278688527,
3837
+ "loss": 0.073,
3838
+ "step": 10940
3839
+ },
3840
+ {
3841
+ "epoch": 53.496034167175104,
3842
+ "grad_norm": 2.490187406539917,
3843
+ "learning_rate": 0.00012878688524590166,
3844
+ "loss": 0.0715,
3845
+ "step": 10960
3846
+ },
3847
+ {
3848
+ "epoch": 53.59365466748017,
3849
+ "grad_norm": 2.2473397254943848,
3850
+ "learning_rate": 0.00012865573770491802,
3851
+ "loss": 0.0715,
3852
+ "step": 10980
3853
+ },
3854
+ {
3855
+ "epoch": 53.691275167785236,
3856
+ "grad_norm": 1.9002201557159424,
3857
+ "learning_rate": 0.00012852459016393444,
3858
+ "loss": 0.0762,
3859
+ "step": 11000
3860
+ },
3861
+ {
3862
+ "epoch": 53.7888956680903,
3863
+ "grad_norm": 2.4991517066955566,
3864
+ "learning_rate": 0.00012839344262295083,
3865
+ "loss": 0.0869,
3866
+ "step": 11020
3867
+ },
3868
+ {
3869
+ "epoch": 53.88651616839536,
3870
+ "grad_norm": 2.5355913639068604,
3871
+ "learning_rate": 0.00012826229508196722,
3872
+ "loss": 0.0801,
3873
+ "step": 11040
3874
+ },
3875
+ {
3876
+ "epoch": 53.98413666870043,
3877
+ "grad_norm": 1.895386815071106,
3878
+ "learning_rate": 0.0001281311475409836,
3879
+ "loss": 0.0747,
3880
+ "step": 11060
3881
+ },
3882
+ {
3883
+ "epoch": 54.08175716900549,
3884
+ "grad_norm": 2.150261163711548,
3885
+ "learning_rate": 0.00012800000000000002,
3886
+ "loss": 0.0646,
3887
+ "step": 11080
3888
+ },
3889
+ {
3890
+ "epoch": 54.179377669310554,
3891
+ "grad_norm": 4.12515926361084,
3892
+ "learning_rate": 0.0001278688524590164,
3893
+ "loss": 0.0693,
3894
+ "step": 11100
3895
+ },
3896
+ {
3897
+ "epoch": 54.27699816961562,
3898
+ "grad_norm": 1.3180917501449585,
3899
+ "learning_rate": 0.00012773770491803277,
3900
+ "loss": 0.069,
3901
+ "step": 11120
3902
+ },
3903
+ {
3904
+ "epoch": 54.374618669920686,
3905
+ "grad_norm": 1.714634895324707,
3906
+ "learning_rate": 0.0001276065573770492,
3907
+ "loss": 0.0701,
3908
+ "step": 11140
3909
+ },
3910
+ {
3911
+ "epoch": 54.47223917022575,
3912
+ "grad_norm": 1.93068265914917,
3913
+ "learning_rate": 0.00012747540983606558,
3914
+ "loss": 0.0682,
3915
+ "step": 11160
3916
+ },
3917
+ {
3918
+ "epoch": 54.56985967053081,
3919
+ "grad_norm": 1.9187488555908203,
3920
+ "learning_rate": 0.000127344262295082,
3921
+ "loss": 0.0778,
3922
+ "step": 11180
3923
+ },
3924
+ {
3925
+ "epoch": 54.66748017083587,
3926
+ "grad_norm": 2.3723368644714355,
3927
+ "learning_rate": 0.00012721311475409836,
3928
+ "loss": 0.0769,
3929
+ "step": 11200
3930
+ },
3931
+ {
3932
+ "epoch": 54.76510067114094,
3933
+ "grad_norm": 1.7806050777435303,
3934
+ "learning_rate": 0.00012708196721311477,
3935
+ "loss": 0.0729,
3936
+ "step": 11220
3937
+ },
3938
+ {
3939
+ "epoch": 54.862721171446005,
3940
+ "grad_norm": 1.839896321296692,
3941
+ "learning_rate": 0.00012695081967213116,
3942
+ "loss": 0.0711,
3943
+ "step": 11240
3944
+ },
3945
+ {
3946
+ "epoch": 54.96034167175107,
3947
+ "grad_norm": 3.055255889892578,
3948
+ "learning_rate": 0.00012681967213114753,
3949
+ "loss": 0.077,
3950
+ "step": 11260
3951
+ },
3952
+ {
3953
+ "epoch": 55.05796217205613,
3954
+ "grad_norm": 1.504418134689331,
3955
+ "learning_rate": 0.00012668852459016394,
3956
+ "loss": 0.0711,
3957
+ "step": 11280
3958
+ },
3959
+ {
3960
+ "epoch": 55.1555826723612,
3961
+ "grad_norm": 3.407508373260498,
3962
+ "learning_rate": 0.00012655737704918033,
3963
+ "loss": 0.0762,
3964
+ "step": 11300
3965
+ },
3966
+ {
3967
+ "epoch": 55.25320317266626,
3968
+ "grad_norm": 1.7444705963134766,
3969
+ "learning_rate": 0.00012642622950819675,
3970
+ "loss": 0.0676,
3971
+ "step": 11320
3972
+ },
3973
+ {
3974
+ "epoch": 55.35082367297132,
3975
+ "grad_norm": 1.7877843379974365,
3976
+ "learning_rate": 0.0001262950819672131,
3977
+ "loss": 0.0611,
3978
+ "step": 11340
3979
+ },
3980
+ {
3981
+ "epoch": 55.448444173276386,
3982
+ "grad_norm": 2.1501216888427734,
3983
+ "learning_rate": 0.0001261639344262295,
3984
+ "loss": 0.0702,
3985
+ "step": 11360
3986
+ },
3987
+ {
3988
+ "epoch": 55.546064673581455,
3989
+ "grad_norm": 1.4569560289382935,
3990
+ "learning_rate": 0.00012603278688524592,
3991
+ "loss": 0.0651,
3992
+ "step": 11380
3993
+ },
3994
+ {
3995
+ "epoch": 55.64368517388652,
3996
+ "grad_norm": 1.5365070104599,
3997
+ "learning_rate": 0.0001259016393442623,
3998
+ "loss": 0.0708,
3999
+ "step": 11400
4000
+ },
4001
+ {
4002
+ "epoch": 55.74130567419158,
4003
+ "grad_norm": 2.2428839206695557,
4004
+ "learning_rate": 0.0001257704918032787,
4005
+ "loss": 0.0694,
4006
+ "step": 11420
4007
+ },
4008
+ {
4009
+ "epoch": 55.83892617449664,
4010
+ "grad_norm": 2.054964542388916,
4011
+ "learning_rate": 0.00012563934426229508,
4012
+ "loss": 0.0754,
4013
+ "step": 11440
4014
+ },
4015
+ {
4016
+ "epoch": 55.93654667480171,
4017
+ "grad_norm": 3.42903733253479,
4018
+ "learning_rate": 0.0001255081967213115,
4019
+ "loss": 0.0752,
4020
+ "step": 11460
4021
+ },
4022
+ {
4023
+ "epoch": 56.034167175106774,
4024
+ "grad_norm": 1.6482346057891846,
4025
+ "learning_rate": 0.00012537704918032786,
4026
+ "loss": 0.068,
4027
+ "step": 11480
4028
+ },
4029
+ {
4030
+ "epoch": 56.131787675411836,
4031
+ "grad_norm": 2.0840466022491455,
4032
+ "learning_rate": 0.00012524590163934425,
4033
+ "loss": 0.0624,
4034
+ "step": 11500
4035
+ },
4036
+ {
4037
+ "epoch": 56.2294081757169,
4038
+ "grad_norm": 2.7554879188537598,
4039
+ "learning_rate": 0.00012511475409836067,
4040
+ "loss": 0.0592,
4041
+ "step": 11520
4042
+ },
4043
+ {
4044
+ "epoch": 56.32702867602197,
4045
+ "grad_norm": 2.8247487545013428,
4046
+ "learning_rate": 0.00012498360655737706,
4047
+ "loss": 0.0661,
4048
+ "step": 11540
4049
+ },
4050
+ {
4051
+ "epoch": 56.42464917632703,
4052
+ "grad_norm": 2.2485480308532715,
4053
+ "learning_rate": 0.00012485245901639345,
4054
+ "loss": 0.0712,
4055
+ "step": 11560
4056
+ },
4057
+ {
4058
+ "epoch": 56.52226967663209,
4059
+ "grad_norm": 2.1642680168151855,
4060
+ "learning_rate": 0.00012472131147540984,
4061
+ "loss": 0.0752,
4062
+ "step": 11580
4063
+ },
4064
+ {
4065
+ "epoch": 56.619890176937155,
4066
+ "grad_norm": 1.827771544456482,
4067
+ "learning_rate": 0.00012459016393442625,
4068
+ "loss": 0.0707,
4069
+ "step": 11600
4070
+ },
4071
+ {
4072
+ "epoch": 56.717510677242224,
4073
+ "grad_norm": 1.9134409427642822,
4074
+ "learning_rate": 0.00012445901639344262,
4075
+ "loss": 0.0696,
4076
+ "step": 11620
4077
+ },
4078
+ {
4079
+ "epoch": 56.815131177547286,
4080
+ "grad_norm": 2.3444812297821045,
4081
+ "learning_rate": 0.000124327868852459,
4082
+ "loss": 0.065,
4083
+ "step": 11640
4084
+ },
4085
+ {
4086
+ "epoch": 56.91275167785235,
4087
+ "grad_norm": 2.0354135036468506,
4088
+ "learning_rate": 0.00012419672131147542,
4089
+ "loss": 0.0746,
4090
+ "step": 11660
4091
+ },
4092
+ {
4093
+ "epoch": 57.01037217815741,
4094
+ "grad_norm": 1.5275322198867798,
4095
+ "learning_rate": 0.0001240655737704918,
4096
+ "loss": 0.0756,
4097
+ "step": 11680
4098
+ },
4099
+ {
4100
+ "epoch": 57.10799267846248,
4101
+ "grad_norm": 2.310797929763794,
4102
+ "learning_rate": 0.0001239344262295082,
4103
+ "loss": 0.057,
4104
+ "step": 11700
4105
+ },
4106
+ {
4107
+ "epoch": 57.20561317876754,
4108
+ "grad_norm": 1.903204083442688,
4109
+ "learning_rate": 0.0001238032786885246,
4110
+ "loss": 0.0657,
4111
+ "step": 11720
4112
+ },
4113
+ {
4114
+ "epoch": 57.303233679072605,
4115
+ "grad_norm": 2.115591049194336,
4116
+ "learning_rate": 0.000123672131147541,
4117
+ "loss": 0.0624,
4118
+ "step": 11740
4119
+ },
4120
+ {
4121
+ "epoch": 57.40085417937767,
4122
+ "grad_norm": 2.1732656955718994,
4123
+ "learning_rate": 0.0001235409836065574,
4124
+ "loss": 0.0636,
4125
+ "step": 11760
4126
+ },
4127
+ {
4128
+ "epoch": 57.49847467968274,
4129
+ "grad_norm": 2.2554845809936523,
4130
+ "learning_rate": 0.00012340983606557376,
4131
+ "loss": 0.0691,
4132
+ "step": 11780
4133
+ },
4134
+ {
4135
+ "epoch": 57.5960951799878,
4136
+ "grad_norm": 2.994563341140747,
4137
+ "learning_rate": 0.00012327868852459017,
4138
+ "loss": 0.0724,
4139
+ "step": 11800
4140
+ },
4141
+ {
4142
+ "epoch": 57.69371568029286,
4143
+ "grad_norm": 2.824934482574463,
4144
+ "learning_rate": 0.00012314754098360656,
4145
+ "loss": 0.07,
4146
+ "step": 11820
4147
+ },
4148
+ {
4149
+ "epoch": 57.79133618059792,
4150
+ "grad_norm": 2.435310125350952,
4151
+ "learning_rate": 0.00012301639344262295,
4152
+ "loss": 0.0753,
4153
+ "step": 11840
4154
+ },
4155
+ {
4156
+ "epoch": 57.88895668090299,
4157
+ "grad_norm": 2.140200138092041,
4158
+ "learning_rate": 0.00012288524590163934,
4159
+ "loss": 0.0762,
4160
+ "step": 11860
4161
+ },
4162
+ {
4163
+ "epoch": 57.986577181208055,
4164
+ "grad_norm": 2.013983726501465,
4165
+ "learning_rate": 0.00012275409836065573,
4166
+ "loss": 0.067,
4167
+ "step": 11880
4168
+ },
4169
+ {
4170
+ "epoch": 58.08419768151312,
4171
+ "grad_norm": 1.8855304718017578,
4172
+ "learning_rate": 0.00012262295081967215,
4173
+ "loss": 0.0606,
4174
+ "step": 11900
4175
+ },
4176
+ {
4177
+ "epoch": 58.18181818181818,
4178
+ "grad_norm": 2.3649916648864746,
4179
+ "learning_rate": 0.0001224918032786885,
4180
+ "loss": 0.0626,
4181
+ "step": 11920
4182
+ },
4183
+ {
4184
+ "epoch": 58.27943868212325,
4185
+ "grad_norm": 2.566420078277588,
4186
+ "learning_rate": 0.00012236065573770493,
4187
+ "loss": 0.059,
4188
+ "step": 11940
4189
+ },
4190
+ {
4191
+ "epoch": 58.37705918242831,
4192
+ "grad_norm": 2.3648924827575684,
4193
+ "learning_rate": 0.00012222950819672132,
4194
+ "loss": 0.0644,
4195
+ "step": 11960
4196
+ },
4197
+ {
4198
+ "epoch": 58.474679682733374,
4199
+ "grad_norm": 1.7778581380844116,
4200
+ "learning_rate": 0.00012209836065573773,
4201
+ "loss": 0.0691,
4202
+ "step": 11980
4203
+ },
4204
+ {
4205
+ "epoch": 58.572300183038436,
4206
+ "grad_norm": 1.8090124130249023,
4207
+ "learning_rate": 0.0001219672131147541,
4208
+ "loss": 0.0685,
4209
+ "step": 12000
4210
+ },
4211
+ {
4212
+ "epoch": 58.669920683343506,
4213
+ "grad_norm": 2.2762486934661865,
4214
+ "learning_rate": 0.0001218360655737705,
4215
+ "loss": 0.0634,
4216
+ "step": 12020
4217
+ },
4218
+ {
4219
+ "epoch": 58.76754118364857,
4220
+ "grad_norm": 2.279273509979248,
4221
+ "learning_rate": 0.0001217049180327869,
4222
+ "loss": 0.0681,
4223
+ "step": 12040
4224
+ },
4225
+ {
4226
+ "epoch": 58.86516168395363,
4227
+ "grad_norm": 1.5724430084228516,
4228
+ "learning_rate": 0.00012157377049180328,
4229
+ "loss": 0.0712,
4230
+ "step": 12060
4231
+ },
4232
+ {
4233
+ "epoch": 58.96278218425869,
4234
+ "grad_norm": 1.7655867338180542,
4235
+ "learning_rate": 0.00012144262295081968,
4236
+ "loss": 0.0711,
4237
+ "step": 12080
4238
+ },
4239
+ {
4240
+ "epoch": 59.060402684563755,
4241
+ "grad_norm": 1.0987945795059204,
4242
+ "learning_rate": 0.00012131147540983607,
4243
+ "loss": 0.0614,
4244
+ "step": 12100
4245
+ },
4246
+ {
4247
+ "epoch": 59.158023184868824,
4248
+ "grad_norm": 1.433910608291626,
4249
+ "learning_rate": 0.00012118032786885247,
4250
+ "loss": 0.0522,
4251
+ "step": 12120
4252
+ },
4253
+ {
4254
+ "epoch": 59.25564368517389,
4255
+ "grad_norm": 1.4189090728759766,
4256
+ "learning_rate": 0.00012104918032786885,
4257
+ "loss": 0.0603,
4258
+ "step": 12140
4259
+ },
4260
+ {
4261
+ "epoch": 59.35326418547895,
4262
+ "grad_norm": 1.915209174156189,
4263
+ "learning_rate": 0.00012091803278688525,
4264
+ "loss": 0.0631,
4265
+ "step": 12160
4266
+ },
4267
+ {
4268
+ "epoch": 59.45088468578401,
4269
+ "grad_norm": 2.0415852069854736,
4270
+ "learning_rate": 0.00012078688524590165,
4271
+ "loss": 0.065,
4272
+ "step": 12180
4273
+ },
4274
+ {
4275
+ "epoch": 59.54850518608908,
4276
+ "grad_norm": 1.8674949407577515,
4277
+ "learning_rate": 0.00012065573770491804,
4278
+ "loss": 0.0636,
4279
+ "step": 12200
4280
+ },
4281
+ {
4282
+ "epoch": 59.64612568639414,
4283
+ "grad_norm": 3.768343687057495,
4284
+ "learning_rate": 0.00012052459016393443,
4285
+ "loss": 0.0666,
4286
+ "step": 12220
4287
+ },
4288
+ {
4289
+ "epoch": 59.743746186699205,
4290
+ "grad_norm": 1.8944804668426514,
4291
+ "learning_rate": 0.00012039344262295082,
4292
+ "loss": 0.0698,
4293
+ "step": 12240
4294
+ },
4295
+ {
4296
+ "epoch": 59.84136668700427,
4297
+ "grad_norm": 2.296515464782715,
4298
+ "learning_rate": 0.00012026229508196722,
4299
+ "loss": 0.0715,
4300
+ "step": 12260
4301
+ },
4302
+ {
4303
+ "epoch": 59.93898718730934,
4304
+ "grad_norm": 1.957593560218811,
4305
+ "learning_rate": 0.0001201311475409836,
4306
+ "loss": 0.0681,
4307
+ "step": 12280
4308
+ },
4309
+ {
4310
+ "epoch": 60.0366076876144,
4311
+ "grad_norm": 1.8776521682739258,
4312
+ "learning_rate": 0.00012,
4313
+ "loss": 0.0676,
4314
+ "step": 12300
4315
+ },
4316
+ {
4317
+ "epoch": 60.13422818791946,
4318
+ "grad_norm": 1.3199673891067505,
4319
+ "learning_rate": 0.0001198688524590164,
4320
+ "loss": 0.0515,
4321
+ "step": 12320
4322
+ },
4323
+ {
4324
+ "epoch": 60.231848688224524,
4325
+ "grad_norm": 1.8994742631912231,
4326
+ "learning_rate": 0.0001197377049180328,
4327
+ "loss": 0.0566,
4328
+ "step": 12340
4329
+ },
4330
+ {
4331
+ "epoch": 60.32946918852959,
4332
+ "grad_norm": 1.8091648817062378,
4333
+ "learning_rate": 0.00011960655737704917,
4334
+ "loss": 0.0628,
4335
+ "step": 12360
4336
+ },
4337
+ {
4338
+ "epoch": 60.427089688834656,
4339
+ "grad_norm": 1.7513519525527954,
4340
+ "learning_rate": 0.00011947540983606557,
4341
+ "loss": 0.0652,
4342
+ "step": 12380
4343
+ },
4344
+ {
4345
+ "epoch": 60.52471018913972,
4346
+ "grad_norm": 1.8451545238494873,
4347
+ "learning_rate": 0.00011934426229508198,
4348
+ "loss": 0.063,
4349
+ "step": 12400
4350
+ },
4351
+ {
4352
+ "epoch": 60.62233068944478,
4353
+ "grad_norm": 1.6873937845230103,
4354
+ "learning_rate": 0.00011921311475409838,
4355
+ "loss": 0.0666,
4356
+ "step": 12420
4357
+ },
4358
+ {
4359
+ "epoch": 60.71995118974985,
4360
+ "grad_norm": 2.2382214069366455,
4361
+ "learning_rate": 0.00011908196721311476,
4362
+ "loss": 0.0593,
4363
+ "step": 12440
4364
+ },
4365
+ {
4366
+ "epoch": 60.81757169005491,
4367
+ "grad_norm": 1.4879833459854126,
4368
+ "learning_rate": 0.00011895081967213116,
4369
+ "loss": 0.0718,
4370
+ "step": 12460
4371
+ },
4372
+ {
4373
+ "epoch": 60.915192190359974,
4374
+ "grad_norm": 1.8051949739456177,
4375
+ "learning_rate": 0.00011881967213114755,
4376
+ "loss": 0.0659,
4377
+ "step": 12480
4378
+ },
4379
+ {
4380
+ "epoch": 61.01281269066504,
4381
+ "grad_norm": 2.070537567138672,
4382
+ "learning_rate": 0.00011868852459016392,
4383
+ "loss": 0.0647,
4384
+ "step": 12500
4385
+ },
4386
+ {
4387
+ "epoch": 61.110433190970106,
4388
+ "grad_norm": 2.195227861404419,
4389
+ "learning_rate": 0.00011855737704918033,
4390
+ "loss": 0.0516,
4391
+ "step": 12520
4392
+ },
4393
+ {
4394
+ "epoch": 61.20805369127517,
4395
+ "grad_norm": 2.3762006759643555,
4396
+ "learning_rate": 0.00011842622950819673,
4397
+ "loss": 0.056,
4398
+ "step": 12540
4399
+ },
4400
+ {
4401
+ "epoch": 61.30567419158023,
4402
+ "grad_norm": 1.836585521697998,
4403
+ "learning_rate": 0.00011829508196721313,
4404
+ "loss": 0.0624,
4405
+ "step": 12560
4406
+ },
4407
+ {
4408
+ "epoch": 61.40329469188529,
4409
+ "grad_norm": 1.6185029745101929,
4410
+ "learning_rate": 0.00011816393442622951,
4411
+ "loss": 0.0591,
4412
+ "step": 12580
4413
+ },
4414
+ {
4415
+ "epoch": 61.50091519219036,
4416
+ "grad_norm": 2.116314649581909,
4417
+ "learning_rate": 0.00011803278688524591,
4418
+ "loss": 0.0615,
4419
+ "step": 12600
4420
+ },
4421
+ {
4422
+ "epoch": 61.598535692495425,
4423
+ "grad_norm": 2.873701333999634,
4424
+ "learning_rate": 0.0001179016393442623,
4425
+ "loss": 0.0624,
4426
+ "step": 12620
4427
+ },
4428
+ {
4429
+ "epoch": 61.69615619280049,
4430
+ "grad_norm": 1.8966227769851685,
4431
+ "learning_rate": 0.0001177704918032787,
4432
+ "loss": 0.0643,
4433
+ "step": 12640
4434
+ },
4435
+ {
4436
+ "epoch": 61.79377669310555,
4437
+ "grad_norm": 2.343330144882202,
4438
+ "learning_rate": 0.00011763934426229508,
4439
+ "loss": 0.0637,
4440
+ "step": 12660
4441
+ },
4442
+ {
4443
+ "epoch": 61.89139719341062,
4444
+ "grad_norm": 2.882538318634033,
4445
+ "learning_rate": 0.00011750819672131148,
4446
+ "loss": 0.0678,
4447
+ "step": 12680
4448
+ },
4449
+ {
4450
+ "epoch": 61.98901769371568,
4451
+ "grad_norm": 3.441783905029297,
4452
+ "learning_rate": 0.00011737704918032789,
4453
+ "loss": 0.0667,
4454
+ "step": 12700
4455
+ },
4456
+ {
4457
+ "epoch": 62.08663819402074,
4458
+ "grad_norm": 1.9193288087844849,
4459
+ "learning_rate": 0.00011724590163934426,
4460
+ "loss": 0.0512,
4461
+ "step": 12720
4462
+ },
4463
+ {
4464
+ "epoch": 62.184258694325806,
4465
+ "grad_norm": 1.326977252960205,
4466
+ "learning_rate": 0.00011711475409836066,
4467
+ "loss": 0.0602,
4468
+ "step": 12740
4469
+ },
4470
+ {
4471
+ "epoch": 62.281879194630875,
4472
+ "grad_norm": 1.6590323448181152,
4473
+ "learning_rate": 0.00011698360655737705,
4474
+ "loss": 0.0564,
4475
+ "step": 12760
4476
+ },
4477
+ {
4478
+ "epoch": 62.37949969493594,
4479
+ "grad_norm": 1.5968765020370483,
4480
+ "learning_rate": 0.00011685245901639346,
4481
+ "loss": 0.0591,
4482
+ "step": 12780
4483
+ },
4484
+ {
4485
+ "epoch": 62.477120195241,
4486
+ "grad_norm": 1.674349069595337,
4487
+ "learning_rate": 0.00011672131147540983,
4488
+ "loss": 0.0603,
4489
+ "step": 12800
4490
+ },
4491
+ {
4492
+ "epoch": 62.57474069554606,
4493
+ "grad_norm": 2.2285475730895996,
4494
+ "learning_rate": 0.00011659016393442623,
4495
+ "loss": 0.0578,
4496
+ "step": 12820
4497
+ },
4498
+ {
4499
+ "epoch": 62.67236119585113,
4500
+ "grad_norm": 1.4100092649459839,
4501
+ "learning_rate": 0.00011645901639344264,
4502
+ "loss": 0.0652,
4503
+ "step": 12840
4504
+ },
4505
+ {
4506
+ "epoch": 62.769981696156194,
4507
+ "grad_norm": 2.5096209049224854,
4508
+ "learning_rate": 0.00011632786885245903,
4509
+ "loss": 0.0551,
4510
+ "step": 12860
4511
+ },
4512
+ {
4513
+ "epoch": 62.867602196461256,
4514
+ "grad_norm": 3.1331403255462646,
4515
+ "learning_rate": 0.0001161967213114754,
4516
+ "loss": 0.0662,
4517
+ "step": 12880
4518
+ },
4519
+ {
4520
+ "epoch": 62.96522269676632,
4521
+ "grad_norm": 1.8345986604690552,
4522
+ "learning_rate": 0.0001160655737704918,
4523
+ "loss": 0.0671,
4524
+ "step": 12900
4525
+ },
4526
+ {
4527
+ "epoch": 63.06284319707139,
4528
+ "grad_norm": 1.7236154079437256,
4529
+ "learning_rate": 0.00011593442622950821,
4530
+ "loss": 0.0553,
4531
+ "step": 12920
4532
+ },
4533
+ {
4534
+ "epoch": 63.16046369737645,
4535
+ "grad_norm": 1.664116621017456,
4536
+ "learning_rate": 0.00011580327868852458,
4537
+ "loss": 0.0554,
4538
+ "step": 12940
4539
+ },
4540
+ {
4541
+ "epoch": 63.25808419768151,
4542
+ "grad_norm": 1.4789968729019165,
4543
+ "learning_rate": 0.00011567213114754099,
4544
+ "loss": 0.0562,
4545
+ "step": 12960
4546
+ },
4547
+ {
4548
+ "epoch": 63.355704697986575,
4549
+ "grad_norm": 2.4718666076660156,
4550
+ "learning_rate": 0.00011554098360655739,
4551
+ "loss": 0.0625,
4552
+ "step": 12980
4553
+ },
4554
+ {
4555
+ "epoch": 63.453325198291644,
4556
+ "grad_norm": 2.611966133117676,
4557
+ "learning_rate": 0.00011540983606557378,
4558
+ "loss": 0.0564,
4559
+ "step": 13000
4560
+ },
4561
+ {
4562
+ "epoch": 63.550945698596706,
4563
+ "grad_norm": 2.4028069972991943,
4564
+ "learning_rate": 0.00011527868852459016,
4565
+ "loss": 0.0629,
4566
+ "step": 13020
4567
+ },
4568
+ {
4569
+ "epoch": 63.64856619890177,
4570
+ "grad_norm": 1.251297950744629,
4571
+ "learning_rate": 0.00011514754098360656,
4572
+ "loss": 0.0608,
4573
+ "step": 13040
4574
+ },
4575
+ {
4576
+ "epoch": 63.74618669920683,
4577
+ "grad_norm": 2.8238635063171387,
4578
+ "learning_rate": 0.00011501639344262296,
4579
+ "loss": 0.0619,
4580
+ "step": 13060
4581
+ },
4582
+ {
4583
+ "epoch": 63.8438071995119,
4584
+ "grad_norm": 2.705125570297241,
4585
+ "learning_rate": 0.00011488524590163936,
4586
+ "loss": 0.0631,
4587
+ "step": 13080
4588
+ },
4589
+ {
4590
+ "epoch": 63.94142769981696,
4591
+ "grad_norm": 1.7994593381881714,
4592
+ "learning_rate": 0.00011475409836065574,
4593
+ "loss": 0.0664,
4594
+ "step": 13100
4595
+ },
4596
+ {
4597
+ "epoch": 64.03904820012202,
4598
+ "grad_norm": 3.055631399154663,
4599
+ "learning_rate": 0.00011462295081967214,
4600
+ "loss": 0.0561,
4601
+ "step": 13120
4602
+ },
4603
+ {
4604
+ "epoch": 64.1366687004271,
4605
+ "grad_norm": 1.7646046876907349,
4606
+ "learning_rate": 0.00011449180327868853,
4607
+ "loss": 0.0542,
4608
+ "step": 13140
4609
+ },
4610
+ {
4611
+ "epoch": 64.23428920073215,
4612
+ "grad_norm": 1.33475923538208,
4613
+ "learning_rate": 0.00011436065573770491,
4614
+ "loss": 0.0535,
4615
+ "step": 13160
4616
+ },
4617
+ {
4618
+ "epoch": 64.33190970103722,
4619
+ "grad_norm": 1.4737622737884521,
4620
+ "learning_rate": 0.00011422950819672131,
4621
+ "loss": 0.0527,
4622
+ "step": 13180
4623
+ },
4624
+ {
4625
+ "epoch": 64.42953020134229,
4626
+ "grad_norm": 2.2712624073028564,
4627
+ "learning_rate": 0.00011409836065573771,
4628
+ "loss": 0.0563,
4629
+ "step": 13200
4630
+ },
4631
+ {
4632
+ "epoch": 64.52715070164734,
4633
+ "grad_norm": 1.3113006353378296,
4634
+ "learning_rate": 0.00011396721311475412,
4635
+ "loss": 0.0529,
4636
+ "step": 13220
4637
+ },
4638
+ {
4639
+ "epoch": 64.62477120195241,
4640
+ "grad_norm": 1.557981014251709,
4641
+ "learning_rate": 0.00011383606557377049,
4642
+ "loss": 0.0625,
4643
+ "step": 13240
4644
+ },
4645
+ {
4646
+ "epoch": 64.72239170225747,
4647
+ "grad_norm": 1.8564097881317139,
4648
+ "learning_rate": 0.00011370491803278688,
4649
+ "loss": 0.0638,
4650
+ "step": 13260
4651
+ },
4652
+ {
4653
+ "epoch": 64.82001220256254,
4654
+ "grad_norm": 1.741255521774292,
4655
+ "learning_rate": 0.00011357377049180329,
4656
+ "loss": 0.0591,
4657
+ "step": 13280
4658
+ },
4659
+ {
4660
+ "epoch": 64.9176327028676,
4661
+ "grad_norm": 1.85543692111969,
4662
+ "learning_rate": 0.00011344262295081969,
4663
+ "loss": 0.0628,
4664
+ "step": 13300
4665
+ },
4666
+ {
4667
+ "epoch": 65.01525320317266,
4668
+ "grad_norm": 1.9299827814102173,
4669
+ "learning_rate": 0.00011331147540983606,
4670
+ "loss": 0.0553,
4671
+ "step": 13320
4672
+ },
4673
+ {
4674
+ "epoch": 65.11287370347773,
4675
+ "grad_norm": 1.5189353227615356,
4676
+ "learning_rate": 0.00011318032786885247,
4677
+ "loss": 0.0502,
4678
+ "step": 13340
4679
+ },
4680
+ {
4681
+ "epoch": 65.2104942037828,
4682
+ "grad_norm": 1.8111690282821655,
4683
+ "learning_rate": 0.00011304918032786887,
4684
+ "loss": 0.0514,
4685
+ "step": 13360
4686
+ },
4687
+ {
4688
+ "epoch": 65.30811470408786,
4689
+ "grad_norm": 2.5628137588500977,
4690
+ "learning_rate": 0.00011291803278688525,
4691
+ "loss": 0.0479,
4692
+ "step": 13380
4693
+ },
4694
+ {
4695
+ "epoch": 65.40573520439293,
4696
+ "grad_norm": 1.4838755130767822,
4697
+ "learning_rate": 0.00011278688524590164,
4698
+ "loss": 0.0591,
4699
+ "step": 13400
4700
+ },
4701
+ {
4702
+ "epoch": 65.50335570469798,
4703
+ "grad_norm": 1.512497067451477,
4704
+ "learning_rate": 0.00011265573770491804,
4705
+ "loss": 0.0554,
4706
+ "step": 13420
4707
+ },
4708
+ {
4709
+ "epoch": 65.60097620500305,
4710
+ "grad_norm": 2.546452283859253,
4711
+ "learning_rate": 0.00011252459016393444,
4712
+ "loss": 0.0567,
4713
+ "step": 13440
4714
+ },
4715
+ {
4716
+ "epoch": 65.69859670530812,
4717
+ "grad_norm": 3.046600580215454,
4718
+ "learning_rate": 0.00011239344262295082,
4719
+ "loss": 0.0614,
4720
+ "step": 13460
4721
+ },
4722
+ {
4723
+ "epoch": 65.79621720561317,
4724
+ "grad_norm": 2.1981520652770996,
4725
+ "learning_rate": 0.00011226229508196722,
4726
+ "loss": 0.0631,
4727
+ "step": 13480
4728
+ },
4729
+ {
4730
+ "epoch": 65.89383770591824,
4731
+ "grad_norm": 2.0264618396759033,
4732
+ "learning_rate": 0.00011213114754098362,
4733
+ "loss": 0.0613,
4734
+ "step": 13500
4735
+ },
4736
+ {
4737
+ "epoch": 65.99145820622331,
4738
+ "grad_norm": 5.12288236618042,
4739
+ "learning_rate": 0.00011200000000000001,
4740
+ "loss": 0.06,
4741
+ "step": 13520
4742
+ },
4743
+ {
4744
+ "epoch": 66.08907870652837,
4745
+ "grad_norm": 1.6284067630767822,
4746
+ "learning_rate": 0.00011186885245901639,
4747
+ "loss": 0.0492,
4748
+ "step": 13540
4749
+ },
4750
+ {
4751
+ "epoch": 66.18669920683344,
4752
+ "grad_norm": 1.5839916467666626,
4753
+ "learning_rate": 0.00011173770491803279,
4754
+ "loss": 0.0522,
4755
+ "step": 13560
4756
+ },
4757
+ {
4758
+ "epoch": 66.2843197071385,
4759
+ "grad_norm": 2.381410598754883,
4760
+ "learning_rate": 0.0001116065573770492,
4761
+ "loss": 0.054,
4762
+ "step": 13580
4763
+ },
4764
+ {
4765
+ "epoch": 66.38194020744356,
4766
+ "grad_norm": 2.1883935928344727,
4767
+ "learning_rate": 0.00011147540983606557,
4768
+ "loss": 0.0539,
4769
+ "step": 13600
4770
+ },
4771
+ {
4772
+ "epoch": 66.47956070774863,
4773
+ "grad_norm": 1.3095104694366455,
4774
+ "learning_rate": 0.00011134426229508197,
4775
+ "loss": 0.0548,
4776
+ "step": 13620
4777
+ },
4778
+ {
4779
+ "epoch": 66.57718120805369,
4780
+ "grad_norm": 3.0383543968200684,
4781
+ "learning_rate": 0.00011121311475409838,
4782
+ "loss": 0.0559,
4783
+ "step": 13640
4784
+ },
4785
+ {
4786
+ "epoch": 66.67480170835876,
4787
+ "grad_norm": 1.848026990890503,
4788
+ "learning_rate": 0.00011108196721311476,
4789
+ "loss": 0.0582,
4790
+ "step": 13660
4791
+ },
4792
+ {
4793
+ "epoch": 66.77242220866383,
4794
+ "grad_norm": 3.3856444358825684,
4795
+ "learning_rate": 0.00011095081967213114,
4796
+ "loss": 0.0583,
4797
+ "step": 13680
4798
+ },
4799
+ {
4800
+ "epoch": 66.87004270896888,
4801
+ "grad_norm": 2.1376798152923584,
4802
+ "learning_rate": 0.00011081967213114754,
4803
+ "loss": 0.0542,
4804
+ "step": 13700
4805
+ },
4806
+ {
4807
+ "epoch": 66.96766320927395,
4808
+ "grad_norm": 1.6410188674926758,
4809
+ "learning_rate": 0.00011068852459016395,
4810
+ "loss": 0.0648,
4811
+ "step": 13720
4812
+ },
4813
+ {
4814
+ "epoch": 67.065283709579,
4815
+ "grad_norm": 2.1899428367614746,
4816
+ "learning_rate": 0.00011055737704918035,
4817
+ "loss": 0.0518,
4818
+ "step": 13740
4819
+ },
4820
+ {
4821
+ "epoch": 67.16290420988408,
4822
+ "grad_norm": 1.662888526916504,
4823
+ "learning_rate": 0.00011042622950819672,
4824
+ "loss": 0.0481,
4825
+ "step": 13760
4826
+ },
4827
+ {
4828
+ "epoch": 67.26052471018915,
4829
+ "grad_norm": 1.8363763093948364,
4830
+ "learning_rate": 0.00011029508196721311,
4831
+ "loss": 0.0521,
4832
+ "step": 13780
4833
+ },
4834
+ {
4835
+ "epoch": 67.3581452104942,
4836
+ "grad_norm": 1.5296106338500977,
4837
+ "learning_rate": 0.00011016393442622952,
4838
+ "loss": 0.0569,
4839
+ "step": 13800
4840
+ },
4841
+ {
4842
+ "epoch": 67.45576571079927,
4843
+ "grad_norm": 3.030101776123047,
4844
+ "learning_rate": 0.00011003278688524589,
4845
+ "loss": 0.0542,
4846
+ "step": 13820
4847
+ },
4848
+ {
4849
+ "epoch": 67.55338621110434,
4850
+ "grad_norm": 1.4792683124542236,
4851
+ "learning_rate": 0.0001099016393442623,
4852
+ "loss": 0.0571,
4853
+ "step": 13840
4854
+ },
4855
+ {
4856
+ "epoch": 67.6510067114094,
4857
+ "grad_norm": 1.8390675783157349,
4858
+ "learning_rate": 0.0001097704918032787,
4859
+ "loss": 0.0562,
4860
+ "step": 13860
4861
+ },
4862
+ {
4863
+ "epoch": 67.74862721171446,
4864
+ "grad_norm": 1.6094483137130737,
4865
+ "learning_rate": 0.0001096393442622951,
4866
+ "loss": 0.0529,
4867
+ "step": 13880
4868
+ },
4869
+ {
4870
+ "epoch": 67.84624771201952,
4871
+ "grad_norm": 2.030127763748169,
4872
+ "learning_rate": 0.00010950819672131148,
4873
+ "loss": 0.0572,
4874
+ "step": 13900
4875
+ },
4876
+ {
4877
+ "epoch": 67.94386821232459,
4878
+ "grad_norm": 1.7216037511825562,
4879
+ "learning_rate": 0.00010937704918032787,
4880
+ "loss": 0.0618,
4881
+ "step": 13920
4882
+ },
4883
+ {
4884
+ "epoch": 68.04148871262966,
4885
+ "grad_norm": 2.081637382507324,
4886
+ "learning_rate": 0.00010924590163934427,
4887
+ "loss": 0.0524,
4888
+ "step": 13940
4889
+ },
4890
+ {
4891
+ "epoch": 68.13910921293471,
4892
+ "grad_norm": 1.6611350774765015,
4893
+ "learning_rate": 0.00010911475409836067,
4894
+ "loss": 0.0463,
4895
+ "step": 13960
4896
+ },
4897
+ {
4898
+ "epoch": 68.23672971323978,
4899
+ "grad_norm": 1.8240830898284912,
4900
+ "learning_rate": 0.00010898360655737705,
4901
+ "loss": 0.0528,
4902
+ "step": 13980
4903
+ },
4904
+ {
4905
+ "epoch": 68.33435021354484,
4906
+ "grad_norm": 2.299060344696045,
4907
+ "learning_rate": 0.00010885245901639345,
4908
+ "loss": 0.0525,
4909
+ "step": 14000
4910
+ },
4911
+ {
4912
+ "epoch": 68.4319707138499,
4913
+ "grad_norm": 2.1000702381134033,
4914
+ "learning_rate": 0.00010872131147540985,
4915
+ "loss": 0.0534,
4916
+ "step": 14020
4917
+ },
4918
+ {
4919
+ "epoch": 68.52959121415498,
4920
+ "grad_norm": 1.4629288911819458,
4921
+ "learning_rate": 0.00010859016393442623,
4922
+ "loss": 0.05,
4923
+ "step": 14040
4924
+ },
4925
+ {
4926
+ "epoch": 68.62721171446003,
4927
+ "grad_norm": 1.571041464805603,
4928
+ "learning_rate": 0.00010845901639344262,
4929
+ "loss": 0.0535,
4930
+ "step": 14060
4931
+ },
4932
+ {
4933
+ "epoch": 68.7248322147651,
4934
+ "grad_norm": 1.6722811460494995,
4935
+ "learning_rate": 0.00010832786885245902,
4936
+ "loss": 0.0498,
4937
+ "step": 14080
4938
+ },
4939
+ {
4940
+ "epoch": 68.82245271507017,
4941
+ "grad_norm": 1.8763340711593628,
4942
+ "learning_rate": 0.00010819672131147543,
4943
+ "loss": 0.0547,
4944
+ "step": 14100
4945
+ },
4946
+ {
4947
+ "epoch": 68.92007321537523,
4948
+ "grad_norm": 2.936068534851074,
4949
+ "learning_rate": 0.0001080655737704918,
4950
+ "loss": 0.055,
4951
+ "step": 14120
4952
+ },
4953
+ {
4954
+ "epoch": 69.0176937156803,
4955
+ "grad_norm": 2.24238920211792,
4956
+ "learning_rate": 0.0001079344262295082,
4957
+ "loss": 0.059,
4958
+ "step": 14140
4959
+ },
4960
+ {
4961
+ "epoch": 69.11531421598535,
4962
+ "grad_norm": 1.4389880895614624,
4963
+ "learning_rate": 0.00010780327868852461,
4964
+ "loss": 0.0453,
4965
+ "step": 14160
4966
+ },
4967
+ {
4968
+ "epoch": 69.21293471629042,
4969
+ "grad_norm": 1.5990976095199585,
4970
+ "learning_rate": 0.00010767213114754098,
4971
+ "loss": 0.0483,
4972
+ "step": 14180
4973
+ },
4974
+ {
4975
+ "epoch": 69.31055521659549,
4976
+ "grad_norm": 1.6288248300552368,
4977
+ "learning_rate": 0.00010754098360655737,
4978
+ "loss": 0.0492,
4979
+ "step": 14200
4980
+ },
4981
+ {
4982
+ "epoch": 69.40817571690054,
4983
+ "grad_norm": 1.6476655006408691,
4984
+ "learning_rate": 0.00010740983606557378,
4985
+ "loss": 0.0485,
4986
+ "step": 14220
4987
+ },
4988
+ {
4989
+ "epoch": 69.50579621720561,
4990
+ "grad_norm": 1.6670396327972412,
4991
+ "learning_rate": 0.00010727868852459018,
4992
+ "loss": 0.0573,
4993
+ "step": 14240
4994
+ },
4995
+ {
4996
+ "epoch": 69.60341671751068,
4997
+ "grad_norm": 1.6438359022140503,
4998
+ "learning_rate": 0.00010714754098360655,
4999
+ "loss": 0.0511,
5000
+ "step": 14260
5001
+ },
5002
+ {
5003
+ "epoch": 69.70103721781574,
5004
+ "grad_norm": 2.0703489780426025,
5005
+ "learning_rate": 0.00010701639344262296,
5006
+ "loss": 0.056,
5007
+ "step": 14280
5008
+ },
5009
+ {
5010
+ "epoch": 69.79865771812081,
5011
+ "grad_norm": 1.2886505126953125,
5012
+ "learning_rate": 0.00010688524590163935,
5013
+ "loss": 0.0518,
5014
+ "step": 14300
5015
+ },
5016
+ {
5017
+ "epoch": 69.89627821842586,
5018
+ "grad_norm": 1.869315505027771,
5019
+ "learning_rate": 0.00010675409836065575,
5020
+ "loss": 0.0613,
5021
+ "step": 14320
5022
+ },
5023
+ {
5024
+ "epoch": 69.99389871873093,
5025
+ "grad_norm": 1.5631581544876099,
5026
+ "learning_rate": 0.00010662295081967212,
5027
+ "loss": 0.0501,
5028
+ "step": 14340
5029
+ },
5030
+ {
5031
+ "epoch": 70.091519219036,
5032
+ "grad_norm": 2.5238254070281982,
5033
+ "learning_rate": 0.00010649180327868853,
5034
+ "loss": 0.0429,
5035
+ "step": 14360
5036
+ },
5037
+ {
5038
+ "epoch": 70.18913971934106,
5039
+ "grad_norm": 1.3227728605270386,
5040
+ "learning_rate": 0.00010636065573770493,
5041
+ "loss": 0.0474,
5042
+ "step": 14380
5043
+ },
5044
+ {
5045
+ "epoch": 70.28676021964613,
5046
+ "grad_norm": 2.284006118774414,
5047
+ "learning_rate": 0.0001062295081967213,
5048
+ "loss": 0.0513,
5049
+ "step": 14400
5050
+ },
5051
+ {
5052
+ "epoch": 70.3843807199512,
5053
+ "grad_norm": 1.3161708116531372,
5054
+ "learning_rate": 0.00010609836065573771,
5055
+ "loss": 0.0517,
5056
+ "step": 14420
5057
+ },
5058
+ {
5059
+ "epoch": 70.48200122025625,
5060
+ "grad_norm": 1.7371370792388916,
5061
+ "learning_rate": 0.0001059672131147541,
5062
+ "loss": 0.0494,
5063
+ "step": 14440
5064
+ },
5065
+ {
5066
+ "epoch": 70.57962172056132,
5067
+ "grad_norm": 3.2471296787261963,
5068
+ "learning_rate": 0.0001058360655737705,
5069
+ "loss": 0.0501,
5070
+ "step": 14460
5071
+ },
5072
+ {
5073
+ "epoch": 70.67724222086638,
5074
+ "grad_norm": 1.9515056610107422,
5075
+ "learning_rate": 0.00010570491803278688,
5076
+ "loss": 0.0562,
5077
+ "step": 14480
5078
+ },
5079
+ {
5080
+ "epoch": 70.77486272117144,
5081
+ "grad_norm": 1.9817485809326172,
5082
+ "learning_rate": 0.00010557377049180328,
5083
+ "loss": 0.0555,
5084
+ "step": 14500
5085
+ },
5086
+ {
5087
+ "epoch": 70.87248322147651,
5088
+ "grad_norm": 1.4870388507843018,
5089
+ "learning_rate": 0.00010544262295081968,
5090
+ "loss": 0.0529,
5091
+ "step": 14520
5092
+ },
5093
+ {
5094
+ "epoch": 70.97010372178157,
5095
+ "grad_norm": 1.6690961122512817,
5096
+ "learning_rate": 0.00010531147540983609,
5097
+ "loss": 0.0525,
5098
+ "step": 14540
5099
+ },
5100
+ {
5101
+ "epoch": 71.06772422208664,
5102
+ "grad_norm": 1.4471197128295898,
5103
+ "learning_rate": 0.00010518032786885246,
5104
+ "loss": 0.0473,
5105
+ "step": 14560
5106
+ },
5107
+ {
5108
+ "epoch": 71.16534472239171,
5109
+ "grad_norm": 2.1219794750213623,
5110
+ "learning_rate": 0.00010504918032786885,
5111
+ "loss": 0.044,
5112
+ "step": 14580
5113
+ },
5114
+ {
5115
+ "epoch": 71.26296522269676,
5116
+ "grad_norm": 2.1904103755950928,
5117
+ "learning_rate": 0.00010491803278688525,
5118
+ "loss": 0.0455,
5119
+ "step": 14600
5120
+ },
5121
+ {
5122
+ "epoch": 71.36058572300183,
5123
+ "grad_norm": 2.576287269592285,
5124
+ "learning_rate": 0.00010478688524590163,
5125
+ "loss": 0.047,
5126
+ "step": 14620
5127
+ },
5128
+ {
5129
+ "epoch": 71.45820622330689,
5130
+ "grad_norm": 2.6635916233062744,
5131
+ "learning_rate": 0.00010465573770491803,
5132
+ "loss": 0.0461,
5133
+ "step": 14640
5134
+ },
5135
+ {
5136
+ "epoch": 71.55582672361196,
5137
+ "grad_norm": 1.234979510307312,
5138
+ "learning_rate": 0.00010452459016393444,
5139
+ "loss": 0.0464,
5140
+ "step": 14660
5141
+ },
5142
+ {
5143
+ "epoch": 71.65344722391703,
5144
+ "grad_norm": 1.6037148237228394,
5145
+ "learning_rate": 0.00010439344262295083,
5146
+ "loss": 0.0522,
5147
+ "step": 14680
5148
+ },
5149
+ {
5150
+ "epoch": 71.75106772422208,
5151
+ "grad_norm": 1.990586280822754,
5152
+ "learning_rate": 0.00010426229508196721,
5153
+ "loss": 0.0577,
5154
+ "step": 14700
5155
+ },
5156
+ {
5157
+ "epoch": 71.84868822452715,
5158
+ "grad_norm": 1.5060235261917114,
5159
+ "learning_rate": 0.0001041311475409836,
5160
+ "loss": 0.0582,
5161
+ "step": 14720
5162
+ },
5163
+ {
5164
+ "epoch": 71.94630872483222,
5165
+ "grad_norm": 2.0390243530273438,
5166
+ "learning_rate": 0.00010400000000000001,
5167
+ "loss": 0.0559,
5168
+ "step": 14740
5169
+ },
5170
+ {
5171
+ "epoch": 72.04392922513728,
5172
+ "grad_norm": 1.5087133646011353,
5173
+ "learning_rate": 0.00010386885245901641,
5174
+ "loss": 0.0538,
5175
+ "step": 14760
5176
+ },
5177
+ {
5178
+ "epoch": 72.14154972544235,
5179
+ "grad_norm": 2.0309317111968994,
5180
+ "learning_rate": 0.00010373770491803279,
5181
+ "loss": 0.0455,
5182
+ "step": 14780
5183
+ },
5184
+ {
5185
+ "epoch": 72.2391702257474,
5186
+ "grad_norm": 1.643815279006958,
5187
+ "learning_rate": 0.00010360655737704919,
5188
+ "loss": 0.0449,
5189
+ "step": 14800
5190
+ },
5191
+ {
5192
+ "epoch": 72.33679072605247,
5193
+ "grad_norm": 1.881631851196289,
5194
+ "learning_rate": 0.00010347540983606558,
5195
+ "loss": 0.0473,
5196
+ "step": 14820
5197
+ },
5198
+ {
5199
+ "epoch": 72.43441122635754,
5200
+ "grad_norm": 1.6459357738494873,
5201
+ "learning_rate": 0.00010334426229508197,
5202
+ "loss": 0.048,
5203
+ "step": 14840
5204
+ },
5205
+ {
5206
+ "epoch": 72.5320317266626,
5207
+ "grad_norm": 2.058401346206665,
5208
+ "learning_rate": 0.00010321311475409836,
5209
+ "loss": 0.0435,
5210
+ "step": 14860
5211
+ },
5212
+ {
5213
+ "epoch": 72.62965222696766,
5214
+ "grad_norm": 1.428796410560608,
5215
+ "learning_rate": 0.00010308196721311476,
5216
+ "loss": 0.0501,
5217
+ "step": 14880
5218
+ },
5219
+ {
5220
+ "epoch": 72.72727272727273,
5221
+ "grad_norm": 1.7262030839920044,
5222
+ "learning_rate": 0.00010295081967213116,
5223
+ "loss": 0.0512,
5224
+ "step": 14900
5225
+ },
5226
+ {
5227
+ "epoch": 72.82489322757779,
5228
+ "grad_norm": 1.5179914236068726,
5229
+ "learning_rate": 0.00010281967213114754,
5230
+ "loss": 0.0524,
5231
+ "step": 14920
5232
+ },
5233
+ {
5234
+ "epoch": 72.92251372788286,
5235
+ "grad_norm": 1.5609859228134155,
5236
+ "learning_rate": 0.00010268852459016394,
5237
+ "loss": 0.0547,
5238
+ "step": 14940
5239
+ },
5240
+ {
5241
+ "epoch": 73.02013422818791,
5242
+ "grad_norm": 1.1576975584030151,
5243
+ "learning_rate": 0.00010255737704918033,
5244
+ "loss": 0.0506,
5245
+ "step": 14960
5246
+ },
5247
+ {
5248
+ "epoch": 73.11775472849298,
5249
+ "grad_norm": 1.4885412454605103,
5250
+ "learning_rate": 0.00010242622950819673,
5251
+ "loss": 0.0424,
5252
+ "step": 14980
5253
+ },
5254
+ {
5255
+ "epoch": 73.21537522879805,
5256
+ "grad_norm": 1.0229533910751343,
5257
+ "learning_rate": 0.00010229508196721311,
5258
+ "loss": 0.0448,
5259
+ "step": 15000
5260
  }
5261
  ],
5262
  "logging_steps": 20,
 
5276
  "attributes": {}
5277
  }
5278
  },
5279
+ "total_flos": 1.6437155588267213e+17,
5280
  "train_batch_size": 1,
5281
  "trial_name": null,
5282
  "trial_params": null