ErrorAI commited on
Commit
d736ecc
·
verified ·
1 Parent(s): ef34748

Training in progress, step 999, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:43cb1da70e843c2594888e6a5f6ac2fad47f63c2907c7a08b956a3ba707e241d
3
  size 48679352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9cca9f27bcd2b1b3f2781ff3348caff7dfdc338608e16d5c986672579a69edd5
3
  size 48679352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1471885873ff07d1ac3c5a097c7635aec37b25c57e1b83ab004b84ae75f5c828
3
  size 25152884
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:654f5ad232053c56b03c0dff973796ed6f3efd97c27655f3b61e2051fcd9b288
3
  size 25152884
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4a5fd1ddf54e97b07a5a52140e2d09471b4b418230724be49f39d905d523df8a
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a3e495d9430e77a9a8235a79020af44fedd824541bf26d3b88fae05d6a5811e3
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:66adf974729a119e312a4cfa261b89669f8f991c61205d795b9cdff1538cad9a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:83c8739da06509b17311b3ff617932a8ea714dea69a235792df21c2f31217d11
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.004426705128929448,
5
  "eval_steps": 500,
6
- "global_step": 666,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4669,6 +4669,2337 @@
4669
  "learning_rate": 5.0177825624378114e-05,
4670
  "loss": 0.9829,
4671
  "step": 666
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4672
  }
4673
  ],
4674
  "logging_steps": 1,
@@ -4688,7 +7019,7 @@
4688
  "attributes": {}
4689
  }
4690
  },
4691
- "total_flos": 1.854101916745728e+17,
4692
  "train_batch_size": 4,
4693
  "trial_name": null,
4694
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.006640057693394173,
5
  "eval_steps": 500,
6
+ "global_step": 999,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4669
  "learning_rate": 5.0177825624378114e-05,
4670
  "loss": 0.9829,
4671
  "step": 666
4672
+ },
4673
+ {
4674
+ "epoch": 0.004433351833327241,
4675
+ "grad_norm": 0.8198716044425964,
4676
+ "learning_rate": 5.0059275319202084e-05,
4677
+ "loss": 0.7453,
4678
+ "step": 667
4679
+ },
4680
+ {
4681
+ "epoch": 0.004439998537725033,
4682
+ "grad_norm": 0.6317304372787476,
4683
+ "learning_rate": 4.9940724680797914e-05,
4684
+ "loss": 0.8972,
4685
+ "step": 668
4686
+ },
4687
+ {
4688
+ "epoch": 0.004446645242122824,
4689
+ "grad_norm": 0.7842250466346741,
4690
+ "learning_rate": 4.98221743756219e-05,
4691
+ "loss": 0.7495,
4692
+ "step": 669
4693
+ },
4694
+ {
4695
+ "epoch": 0.004453291946520616,
4696
+ "grad_norm": 0.7934935092926025,
4697
+ "learning_rate": 4.970362507012848e-05,
4698
+ "loss": 0.8944,
4699
+ "step": 670
4700
+ },
4701
+ {
4702
+ "epoch": 0.004459938650918409,
4703
+ "grad_norm": 0.858690619468689,
4704
+ "learning_rate": 4.958507743076645e-05,
4705
+ "loss": 0.8814,
4706
+ "step": 671
4707
+ },
4708
+ {
4709
+ "epoch": 0.0044665853553162,
4710
+ "grad_norm": 0.7755974531173706,
4711
+ "learning_rate": 4.946653212397527e-05,
4712
+ "loss": 0.8873,
4713
+ "step": 672
4714
+ },
4715
+ {
4716
+ "epoch": 0.004473232059713992,
4717
+ "grad_norm": 0.995033860206604,
4718
+ "learning_rate": 4.934798981618127e-05,
4719
+ "loss": 0.7748,
4720
+ "step": 673
4721
+ },
4722
+ {
4723
+ "epoch": 0.004479878764111784,
4724
+ "grad_norm": 1.0964568853378296,
4725
+ "learning_rate": 4.922945117379394e-05,
4726
+ "loss": 0.629,
4727
+ "step": 674
4728
+ },
4729
+ {
4730
+ "epoch": 0.0044865254685095765,
4731
+ "grad_norm": 0.901854932308197,
4732
+ "learning_rate": 4.911091686320213e-05,
4733
+ "loss": 0.6407,
4734
+ "step": 675
4735
+ },
4736
+ {
4737
+ "epoch": 0.004493172172907368,
4738
+ "grad_norm": 0.9707088470458984,
4739
+ "learning_rate": 4.8992387550770373e-05,
4740
+ "loss": 0.8739,
4741
+ "step": 676
4742
+ },
4743
+ {
4744
+ "epoch": 0.00449981887730516,
4745
+ "grad_norm": 0.9366260766983032,
4746
+ "learning_rate": 4.887386390283508e-05,
4747
+ "loss": 0.7199,
4748
+ "step": 677
4749
+ },
4750
+ {
4751
+ "epoch": 0.004506465581702952,
4752
+ "grad_norm": 0.7978320717811584,
4753
+ "learning_rate": 4.875534658570081e-05,
4754
+ "loss": 0.735,
4755
+ "step": 678
4756
+ },
4757
+ {
4758
+ "epoch": 0.004513112286100744,
4759
+ "grad_norm": 0.917753279209137,
4760
+ "learning_rate": 4.863683626563657e-05,
4761
+ "loss": 0.6231,
4762
+ "step": 679
4763
+ },
4764
+ {
4765
+ "epoch": 0.004519758990498536,
4766
+ "grad_norm": 0.9080862402915955,
4767
+ "learning_rate": 4.851833360887201e-05,
4768
+ "loss": 0.9354,
4769
+ "step": 680
4770
+ },
4771
+ {
4772
+ "epoch": 0.004526405694896328,
4773
+ "grad_norm": 0.7667110562324524,
4774
+ "learning_rate": 4.839983928159371e-05,
4775
+ "loss": 0.7752,
4776
+ "step": 681
4777
+ },
4778
+ {
4779
+ "epoch": 0.00453305239929412,
4780
+ "grad_norm": 1.119476318359375,
4781
+ "learning_rate": 4.828135394994137e-05,
4782
+ "loss": 0.9401,
4783
+ "step": 682
4784
+ },
4785
+ {
4786
+ "epoch": 0.004539699103691912,
4787
+ "grad_norm": 1.1330437660217285,
4788
+ "learning_rate": 4.816287828000418e-05,
4789
+ "loss": 0.8267,
4790
+ "step": 683
4791
+ },
4792
+ {
4793
+ "epoch": 0.004546345808089704,
4794
+ "grad_norm": 0.904588520526886,
4795
+ "learning_rate": 4.804441293781702e-05,
4796
+ "loss": 0.8909,
4797
+ "step": 684
4798
+ },
4799
+ {
4800
+ "epoch": 0.004552992512487496,
4801
+ "grad_norm": 1.2153210639953613,
4802
+ "learning_rate": 4.7925958589356675e-05,
4803
+ "loss": 0.9012,
4804
+ "step": 685
4805
+ },
4806
+ {
4807
+ "epoch": 0.004559639216885288,
4808
+ "grad_norm": 1.0748893022537231,
4809
+ "learning_rate": 4.780751590053813e-05,
4810
+ "loss": 0.6757,
4811
+ "step": 686
4812
+ },
4813
+ {
4814
+ "epoch": 0.00456628592128308,
4815
+ "grad_norm": 1.0900492668151855,
4816
+ "learning_rate": 4.768908553721085e-05,
4817
+ "loss": 0.7261,
4818
+ "step": 687
4819
+ },
4820
+ {
4821
+ "epoch": 0.004572932625680872,
4822
+ "grad_norm": 1.0078903436660767,
4823
+ "learning_rate": 4.757066816515494e-05,
4824
+ "loss": 0.8643,
4825
+ "step": 688
4826
+ },
4827
+ {
4828
+ "epoch": 0.0045795793300786635,
4829
+ "grad_norm": 1.585972547531128,
4830
+ "learning_rate": 4.74522644500776e-05,
4831
+ "loss": 0.8907,
4832
+ "step": 689
4833
+ },
4834
+ {
4835
+ "epoch": 0.004586226034476456,
4836
+ "grad_norm": 1.3707166910171509,
4837
+ "learning_rate": 4.7333875057609126e-05,
4838
+ "loss": 0.8671,
4839
+ "step": 690
4840
+ },
4841
+ {
4842
+ "epoch": 0.004592872738874248,
4843
+ "grad_norm": 1.412148118019104,
4844
+ "learning_rate": 4.721550065329938e-05,
4845
+ "loss": 0.9209,
4846
+ "step": 691
4847
+ },
4848
+ {
4849
+ "epoch": 0.0045995194432720396,
4850
+ "grad_norm": 1.1696654558181763,
4851
+ "learning_rate": 4.70971419026139e-05,
4852
+ "loss": 0.6559,
4853
+ "step": 692
4854
+ },
4855
+ {
4856
+ "epoch": 0.004606166147669831,
4857
+ "grad_norm": 1.614428997039795,
4858
+ "learning_rate": 4.697879947093027e-05,
4859
+ "loss": 0.9432,
4860
+ "step": 693
4861
+ },
4862
+ {
4863
+ "epoch": 0.004612812852067624,
4864
+ "grad_norm": 1.4621384143829346,
4865
+ "learning_rate": 4.6860474023534335e-05,
4866
+ "loss": 0.6001,
4867
+ "step": 694
4868
+ },
4869
+ {
4870
+ "epoch": 0.004619459556465416,
4871
+ "grad_norm": 1.82318913936615,
4872
+ "learning_rate": 4.674216622561644e-05,
4873
+ "loss": 0.9496,
4874
+ "step": 695
4875
+ },
4876
+ {
4877
+ "epoch": 0.004626106260863207,
4878
+ "grad_norm": 1.641218662261963,
4879
+ "learning_rate": 4.662387674226771e-05,
4880
+ "loss": 0.8027,
4881
+ "step": 696
4882
+ },
4883
+ {
4884
+ "epoch": 0.004632752965260999,
4885
+ "grad_norm": 3.2597484588623047,
4886
+ "learning_rate": 4.6505606238476326e-05,
4887
+ "loss": 1.388,
4888
+ "step": 697
4889
+ },
4890
+ {
4891
+ "epoch": 0.004639399669658792,
4892
+ "grad_norm": 2.241243839263916,
4893
+ "learning_rate": 4.6387355379123734e-05,
4894
+ "loss": 1.2085,
4895
+ "step": 698
4896
+ },
4897
+ {
4898
+ "epoch": 0.0046460463740565835,
4899
+ "grad_norm": 2.4520256519317627,
4900
+ "learning_rate": 4.6269124828981014e-05,
4901
+ "loss": 0.5715,
4902
+ "step": 699
4903
+ },
4904
+ {
4905
+ "epoch": 0.004652693078454375,
4906
+ "grad_norm": 2.561048984527588,
4907
+ "learning_rate": 4.615091525270501e-05,
4908
+ "loss": 0.8268,
4909
+ "step": 700
4910
+ },
4911
+ {
4912
+ "epoch": 0.004659339782852167,
4913
+ "grad_norm": 0.3658062219619751,
4914
+ "learning_rate": 4.603272731483467e-05,
4915
+ "loss": 1.0607,
4916
+ "step": 701
4917
+ },
4918
+ {
4919
+ "epoch": 0.00466598648724996,
4920
+ "grad_norm": 0.5691250562667847,
4921
+ "learning_rate": 4.5914561679787345e-05,
4922
+ "loss": 1.1228,
4923
+ "step": 702
4924
+ },
4925
+ {
4926
+ "epoch": 0.004672633191647751,
4927
+ "grad_norm": 0.4382160007953644,
4928
+ "learning_rate": 4.579641901185491e-05,
4929
+ "loss": 0.8865,
4930
+ "step": 703
4931
+ },
4932
+ {
4933
+ "epoch": 0.004679279896045543,
4934
+ "grad_norm": 0.6933655142784119,
4935
+ "learning_rate": 4.567829997520023e-05,
4936
+ "loss": 0.7971,
4937
+ "step": 704
4938
+ },
4939
+ {
4940
+ "epoch": 0.004685926600443335,
4941
+ "grad_norm": 0.6793907880783081,
4942
+ "learning_rate": 4.5560205233853266e-05,
4943
+ "loss": 0.9222,
4944
+ "step": 705
4945
+ },
4946
+ {
4947
+ "epoch": 0.004692573304841127,
4948
+ "grad_norm": 0.842363178730011,
4949
+ "learning_rate": 4.544213545170741e-05,
4950
+ "loss": 0.8264,
4951
+ "step": 706
4952
+ },
4953
+ {
4954
+ "epoch": 0.004699220009238919,
4955
+ "grad_norm": 0.6511426568031311,
4956
+ "learning_rate": 4.5324091292515724e-05,
4957
+ "loss": 1.1472,
4958
+ "step": 707
4959
+ },
4960
+ {
4961
+ "epoch": 0.004705866713636711,
4962
+ "grad_norm": 0.5798910856246948,
4963
+ "learning_rate": 4.520607341988724e-05,
4964
+ "loss": 0.8783,
4965
+ "step": 708
4966
+ },
4967
+ {
4968
+ "epoch": 0.004712513418034503,
4969
+ "grad_norm": 0.5842803120613098,
4970
+ "learning_rate": 4.5088082497283235e-05,
4971
+ "loss": 1.0191,
4972
+ "step": 709
4973
+ },
4974
+ {
4975
+ "epoch": 0.004719160122432295,
4976
+ "grad_norm": 0.5944225788116455,
4977
+ "learning_rate": 4.497011918801347e-05,
4978
+ "loss": 0.8818,
4979
+ "step": 710
4980
+ },
4981
+ {
4982
+ "epoch": 0.004725806826830087,
4983
+ "grad_norm": 0.6699796319007874,
4984
+ "learning_rate": 4.485218415523242e-05,
4985
+ "loss": 0.8876,
4986
+ "step": 711
4987
+ },
4988
+ {
4989
+ "epoch": 0.004732453531227879,
4990
+ "grad_norm": 0.6302338242530823,
4991
+ "learning_rate": 4.473427806193567e-05,
4992
+ "loss": 0.8118,
4993
+ "step": 712
4994
+ },
4995
+ {
4996
+ "epoch": 0.004739100235625671,
4997
+ "grad_norm": 0.5817951560020447,
4998
+ "learning_rate": 4.4616401570956075e-05,
4999
+ "loss": 0.8042,
5000
+ "step": 713
5001
+ },
5002
+ {
5003
+ "epoch": 0.004745746940023463,
5004
+ "grad_norm": 0.8302817940711975,
5005
+ "learning_rate": 4.4498555344960115e-05,
5006
+ "loss": 0.5791,
5007
+ "step": 714
5008
+ },
5009
+ {
5010
+ "epoch": 0.004752393644421255,
5011
+ "grad_norm": 0.6934455633163452,
5012
+ "learning_rate": 4.4380740046444066e-05,
5013
+ "loss": 0.8314,
5014
+ "step": 715
5015
+ },
5016
+ {
5017
+ "epoch": 0.0047590403488190465,
5018
+ "grad_norm": 0.8211054801940918,
5019
+ "learning_rate": 4.4262956337730385e-05,
5020
+ "loss": 0.8583,
5021
+ "step": 716
5022
+ },
5023
+ {
5024
+ "epoch": 0.004765687053216839,
5025
+ "grad_norm": 0.8365226984024048,
5026
+ "learning_rate": 4.4145204880963945e-05,
5027
+ "loss": 0.7647,
5028
+ "step": 717
5029
+ },
5030
+ {
5031
+ "epoch": 0.004772333757614631,
5032
+ "grad_norm": 0.7704525589942932,
5033
+ "learning_rate": 4.402748633810826e-05,
5034
+ "loss": 0.8246,
5035
+ "step": 718
5036
+ },
5037
+ {
5038
+ "epoch": 0.004778980462012423,
5039
+ "grad_norm": 0.9756360054016113,
5040
+ "learning_rate": 4.390980137094187e-05,
5041
+ "loss": 0.7665,
5042
+ "step": 719
5043
+ },
5044
+ {
5045
+ "epoch": 0.004785627166410214,
5046
+ "grad_norm": 0.8577277660369873,
5047
+ "learning_rate": 4.379215064105454e-05,
5048
+ "loss": 0.7484,
5049
+ "step": 720
5050
+ },
5051
+ {
5052
+ "epoch": 0.004792273870808007,
5053
+ "grad_norm": 0.7188462615013123,
5054
+ "learning_rate": 4.367453480984356e-05,
5055
+ "loss": 0.8432,
5056
+ "step": 721
5057
+ },
5058
+ {
5059
+ "epoch": 0.004798920575205799,
5060
+ "grad_norm": 0.82792067527771,
5061
+ "learning_rate": 4.355695453851e-05,
5062
+ "loss": 0.9031,
5063
+ "step": 722
5064
+ },
5065
+ {
5066
+ "epoch": 0.0048055672796035905,
5067
+ "grad_norm": 0.7311772704124451,
5068
+ "learning_rate": 4.3439410488055075e-05,
5069
+ "loss": 0.7162,
5070
+ "step": 723
5071
+ },
5072
+ {
5073
+ "epoch": 0.004812213984001382,
5074
+ "grad_norm": 0.7862158417701721,
5075
+ "learning_rate": 4.332190331927636e-05,
5076
+ "loss": 0.9094,
5077
+ "step": 724
5078
+ },
5079
+ {
5080
+ "epoch": 0.004818860688399175,
5081
+ "grad_norm": 0.8980942964553833,
5082
+ "learning_rate": 4.3204433692764096e-05,
5083
+ "loss": 0.9385,
5084
+ "step": 725
5085
+ },
5086
+ {
5087
+ "epoch": 0.0048255073927969665,
5088
+ "grad_norm": 0.8081440925598145,
5089
+ "learning_rate": 4.3087002268897434e-05,
5090
+ "loss": 0.81,
5091
+ "step": 726
5092
+ },
5093
+ {
5094
+ "epoch": 0.004832154097194758,
5095
+ "grad_norm": 1.0013748407363892,
5096
+ "learning_rate": 4.296960970784082e-05,
5097
+ "loss": 0.7476,
5098
+ "step": 727
5099
+ },
5100
+ {
5101
+ "epoch": 0.00483880080159255,
5102
+ "grad_norm": 0.9266440272331238,
5103
+ "learning_rate": 4.285225666954016e-05,
5104
+ "loss": 0.8057,
5105
+ "step": 728
5106
+ },
5107
+ {
5108
+ "epoch": 0.004845447505990343,
5109
+ "grad_norm": 0.9051468968391418,
5110
+ "learning_rate": 4.273494381371926e-05,
5111
+ "loss": 0.939,
5112
+ "step": 729
5113
+ },
5114
+ {
5115
+ "epoch": 0.004852094210388134,
5116
+ "grad_norm": 0.8008094429969788,
5117
+ "learning_rate": 4.2617671799875944e-05,
5118
+ "loss": 0.8005,
5119
+ "step": 730
5120
+ },
5121
+ {
5122
+ "epoch": 0.004858740914785926,
5123
+ "grad_norm": 0.9573123455047607,
5124
+ "learning_rate": 4.2500441287278505e-05,
5125
+ "loss": 0.7531,
5126
+ "step": 731
5127
+ },
5128
+ {
5129
+ "epoch": 0.004865387619183718,
5130
+ "grad_norm": 1.2024757862091064,
5131
+ "learning_rate": 4.238325293496186e-05,
5132
+ "loss": 0.6332,
5133
+ "step": 732
5134
+ },
5135
+ {
5136
+ "epoch": 0.0048720343235815105,
5137
+ "grad_norm": 1.0710391998291016,
5138
+ "learning_rate": 4.226610740172396e-05,
5139
+ "loss": 0.9639,
5140
+ "step": 733
5141
+ },
5142
+ {
5143
+ "epoch": 0.004878681027979302,
5144
+ "grad_norm": 1.2133551836013794,
5145
+ "learning_rate": 4.214900534612205e-05,
5146
+ "loss": 0.5005,
5147
+ "step": 734
5148
+ },
5149
+ {
5150
+ "epoch": 0.004885327732377094,
5151
+ "grad_norm": 1.379006266593933,
5152
+ "learning_rate": 4.203194742646893e-05,
5153
+ "loss": 0.8146,
5154
+ "step": 735
5155
+ },
5156
+ {
5157
+ "epoch": 0.004891974436774886,
5158
+ "grad_norm": 1.496587872505188,
5159
+ "learning_rate": 4.191493430082929e-05,
5160
+ "loss": 0.7647,
5161
+ "step": 736
5162
+ },
5163
+ {
5164
+ "epoch": 0.004898621141172678,
5165
+ "grad_norm": 1.0434892177581787,
5166
+ "learning_rate": 4.179796662701597e-05,
5167
+ "loss": 0.8637,
5168
+ "step": 737
5169
+ },
5170
+ {
5171
+ "epoch": 0.00490526784557047,
5172
+ "grad_norm": 1.0825583934783936,
5173
+ "learning_rate": 4.168104506258636e-05,
5174
+ "loss": 0.6391,
5175
+ "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.004911914549968262,
5179
+ "grad_norm": 0.9926093220710754,
5180
+ "learning_rate": 4.1564170264838595e-05,
5181
+ "loss": 0.8085,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.004918561254366054,
5186
+ "grad_norm": 1.1647216081619263,
5187
+ "learning_rate": 4.144734289080791e-05,
5188
+ "loss": 0.6383,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.004925207958763846,
5193
+ "grad_norm": 1.0999730825424194,
5194
+ "learning_rate": 4.133056359726289e-05,
5195
+ "loss": 0.7778,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.004931854663161638,
5200
+ "grad_norm": 1.5499298572540283,
5201
+ "learning_rate": 4.121383304070191e-05,
5202
+ "loss": 0.7831,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.00493850136755943,
5207
+ "grad_norm": 1.425614595413208,
5208
+ "learning_rate": 4.1097151877349316e-05,
5209
+ "loss": 0.8449,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.004945148071957222,
5214
+ "grad_norm": 1.5261919498443604,
5215
+ "learning_rate": 4.0980520763151796e-05,
5216
+ "loss": 0.7073,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.004951794776355014,
5221
+ "grad_norm": 1.5911787748336792,
5222
+ "learning_rate": 4.086394035377463e-05,
5223
+ "loss": 0.6253,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.004958441480752806,
5228
+ "grad_norm": 1.6266251802444458,
5229
+ "learning_rate": 4.074741130459813e-05,
5230
+ "loss": 0.8432,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.004965088185150597,
5235
+ "grad_norm": 1.2186232805252075,
5236
+ "learning_rate": 4.063093427071376e-05,
5237
+ "loss": 0.6454,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.00497173488954839,
5242
+ "grad_norm": 1.5160404443740845,
5243
+ "learning_rate": 4.051450990692073e-05,
5244
+ "loss": 0.805,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.004978381593946182,
5249
+ "grad_norm": 2.0402166843414307,
5250
+ "learning_rate": 4.039813886772201e-05,
5251
+ "loss": 0.8304,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.0049850282983439735,
5256
+ "grad_norm": 2.949624538421631,
5257
+ "learning_rate": 4.028182180732088e-05,
5258
+ "loss": 0.6917,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.004991675002741765,
5263
+ "grad_norm": 0.35819950699806213,
5264
+ "learning_rate": 4.016555937961711e-05,
5265
+ "loss": 0.8131,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.004998321707139558,
5270
+ "grad_norm": 0.43927833437919617,
5271
+ "learning_rate": 4.0049352238203376e-05,
5272
+ "loss": 0.857,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.00500496841153735,
5277
+ "grad_norm": 0.4738449156284332,
5278
+ "learning_rate": 3.9933201036361554e-05,
5279
+ "loss": 0.8975,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.005011615115935141,
5284
+ "grad_norm": 1.1976778507232666,
5285
+ "learning_rate": 3.981710642705906e-05,
5286
+ "loss": 0.7099,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.005018261820332933,
5291
+ "grad_norm": 0.5854752063751221,
5292
+ "learning_rate": 3.970106906294509e-05,
5293
+ "loss": 0.9164,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.005024908524730726,
5298
+ "grad_norm": 0.5547404289245605,
5299
+ "learning_rate": 3.9585089596347094e-05,
5300
+ "loss": 0.8185,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.005031555229128517,
5305
+ "grad_norm": 0.7054506540298462,
5306
+ "learning_rate": 3.946916867926702e-05,
5307
+ "loss": 0.9904,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.005038201933526309,
5312
+ "grad_norm": 0.5721423029899597,
5313
+ "learning_rate": 3.935330696337768e-05,
5314
+ "loss": 0.8113,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.005044848637924101,
5319
+ "grad_norm": 0.7183482050895691,
5320
+ "learning_rate": 3.923750510001903e-05,
5321
+ "loss": 1.132,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.0050514953423218935,
5326
+ "grad_norm": 0.6827608346939087,
5327
+ "learning_rate": 3.9121763740194616e-05,
5328
+ "loss": 0.8093,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.005058142046719685,
5333
+ "grad_norm": 0.6405389308929443,
5334
+ "learning_rate": 3.900608353456782e-05,
5335
+ "loss": 0.7248,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.005064788751117477,
5340
+ "grad_norm": 0.9901874661445618,
5341
+ "learning_rate": 3.889046513345818e-05,
5342
+ "loss": 0.6536,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.005071435455515269,
5347
+ "grad_norm": 0.7273656725883484,
5348
+ "learning_rate": 3.87749091868379e-05,
5349
+ "loss": 0.7783,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.005078082159913061,
5354
+ "grad_norm": 0.7552725672721863,
5355
+ "learning_rate": 3.8659416344328e-05,
5356
+ "loss": 0.8353,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.005084728864310853,
5361
+ "grad_norm": 0.9276883602142334,
5362
+ "learning_rate": 3.854398725519479e-05,
5363
+ "loss": 0.804,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.005091375568708645,
5368
+ "grad_norm": 0.6831343173980713,
5369
+ "learning_rate": 3.842862256834613e-05,
5370
+ "loss": 0.8294,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.005098022273106437,
5375
+ "grad_norm": 0.8653516173362732,
5376
+ "learning_rate": 3.831332293232787e-05,
5377
+ "loss": 0.7905,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.005104668977504229,
5382
+ "grad_norm": 0.788194477558136,
5383
+ "learning_rate": 3.819808899532015e-05,
5384
+ "loss": 0.896,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.005111315681902021,
5389
+ "grad_norm": 0.8511560559272766,
5390
+ "learning_rate": 3.808292140513379e-05,
5391
+ "loss": 0.7863,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.005117962386299813,
5396
+ "grad_norm": 0.868413507938385,
5397
+ "learning_rate": 3.796782080920659e-05,
5398
+ "loss": 0.8043,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.005124609090697605,
5403
+ "grad_norm": 0.8420473337173462,
5404
+ "learning_rate": 3.7852787854599746e-05,
5405
+ "loss": 0.9915,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.005131255795095397,
5410
+ "grad_norm": 0.8845599293708801,
5411
+ "learning_rate": 3.77378231879942e-05,
5412
+ "loss": 0.7352,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.005137902499493189,
5417
+ "grad_norm": 0.820316731929779,
5418
+ "learning_rate": 3.762292745568702e-05,
5419
+ "loss": 0.7933,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.0051445492038909805,
5424
+ "grad_norm": 1.0592056512832642,
5425
+ "learning_rate": 3.750810130358769e-05,
5426
+ "loss": 0.8795,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.005151195908288773,
5431
+ "grad_norm": 0.7946357131004333,
5432
+ "learning_rate": 3.7393345377214586e-05,
5433
+ "loss": 0.6885,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.005157842612686565,
5438
+ "grad_norm": 0.8453227877616882,
5439
+ "learning_rate": 3.727866032169127e-05,
5440
+ "loss": 0.7128,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.005164489317084357,
5445
+ "grad_norm": 1.225663185119629,
5446
+ "learning_rate": 3.716404678174288e-05,
5447
+ "loss": 0.9135,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.005171136021482148,
5452
+ "grad_norm": 0.8996406197547913,
5453
+ "learning_rate": 3.704950540169256e-05,
5454
+ "loss": 0.8883,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.005177782725879941,
5459
+ "grad_norm": 0.9237585067749023,
5460
+ "learning_rate": 3.693503682545775e-05,
5461
+ "loss": 0.8482,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.005184429430277733,
5466
+ "grad_norm": 1.2108267545700073,
5467
+ "learning_rate": 3.682064169654663e-05,
5468
+ "loss": 0.8083,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.005191076134675524,
5473
+ "grad_norm": 0.9889872670173645,
5474
+ "learning_rate": 3.670632065805445e-05,
5475
+ "loss": 0.9583,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.005197722839073316,
5480
+ "grad_norm": 0.9854968190193176,
5481
+ "learning_rate": 3.659207435265998e-05,
5482
+ "loss": 0.5858,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.005204369543471109,
5487
+ "grad_norm": 0.9853740930557251,
5488
+ "learning_rate": 3.6477903422621865e-05,
5489
+ "loss": 0.7543,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.0052110162478689005,
5494
+ "grad_norm": 1.0569560527801514,
5495
+ "learning_rate": 3.6363808509774996e-05,
5496
+ "loss": 0.9121,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.005217662952266692,
5501
+ "grad_norm": 1.209022879600525,
5502
+ "learning_rate": 3.6249790255526915e-05,
5503
+ "loss": 0.9692,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.005224309656664484,
5508
+ "grad_norm": 0.822544515132904,
5509
+ "learning_rate": 3.6135849300854225e-05,
5510
+ "loss": 0.5065,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.005230956361062277,
5515
+ "grad_norm": 1.006661057472229,
5516
+ "learning_rate": 3.602198628629893e-05,
5517
+ "loss": 0.7771,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.005237603065460068,
5522
+ "grad_norm": 1.003117322921753,
5523
+ "learning_rate": 3.590820185196497e-05,
5524
+ "loss": 0.7955,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.00524424976985786,
5529
+ "grad_norm": 1.7347395420074463,
5530
+ "learning_rate": 3.579449663751444e-05,
5531
+ "loss": 0.7385,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.005250896474255652,
5536
+ "grad_norm": 1.0848127603530884,
5537
+ "learning_rate": 3.5680871282164144e-05,
5538
+ "loss": 0.5635,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.005257543178653444,
5543
+ "grad_norm": 1.8770695924758911,
5544
+ "learning_rate": 3.556732642468189e-05,
5545
+ "loss": 0.9407,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.005264189883051236,
5550
+ "grad_norm": 1.2975075244903564,
5551
+ "learning_rate": 3.545386270338299e-05,
5552
+ "loss": 0.8492,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.005270836587449028,
5557
+ "grad_norm": 1.0128837823867798,
5558
+ "learning_rate": 3.5340480756126624e-05,
5559
+ "loss": 0.6228,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.00527748329184682,
5564
+ "grad_norm": 1.1561847925186157,
5565
+ "learning_rate": 3.522718122031229e-05,
5566
+ "loss": 0.6094,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.005284129996244612,
5571
+ "grad_norm": 1.5360347032546997,
5572
+ "learning_rate": 3.5113964732876106e-05,
5573
+ "loss": 0.865,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.005290776700642404,
5578
+ "grad_norm": 1.4779386520385742,
5579
+ "learning_rate": 3.500083193028741e-05,
5580
+ "loss": 0.6847,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.005297423405040196,
5585
+ "grad_norm": 1.67745041847229,
5586
+ "learning_rate": 3.488778344854504e-05,
5587
+ "loss": 0.6983,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.005304070109437988,
5592
+ "grad_norm": 1.8071433305740356,
5593
+ "learning_rate": 3.477481992317384e-05,
5594
+ "loss": 0.7865,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.00531071681383578,
5599
+ "grad_norm": 2.242330312728882,
5600
+ "learning_rate": 3.466194198922102e-05,
5601
+ "loss": 0.9295,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.005317363518233572,
5606
+ "grad_norm": 3.3643980026245117,
5607
+ "learning_rate": 3.4549150281252636e-05,
5608
+ "loss": 0.7402,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.0053240102226313635,
5613
+ "grad_norm": 0.3782943785190582,
5614
+ "learning_rate": 3.4436445433350015e-05,
5615
+ "loss": 0.9188,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.005330656927029156,
5620
+ "grad_norm": 0.539129376411438,
5621
+ "learning_rate": 3.432382807910615e-05,
5622
+ "loss": 0.8105,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.005337303631426948,
5627
+ "grad_norm": 0.8282445669174194,
5628
+ "learning_rate": 3.421129885162223e-05,
5629
+ "loss": 0.7792,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.00534395033582474,
5634
+ "grad_norm": 0.5992372035980225,
5635
+ "learning_rate": 3.409885838350397e-05,
5636
+ "loss": 0.6944,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.005350597040222531,
5641
+ "grad_norm": 0.5927280187606812,
5642
+ "learning_rate": 3.3986507306858125e-05,
5643
+ "loss": 0.8305,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.005357243744620324,
5648
+ "grad_norm": 0.6903488636016846,
5649
+ "learning_rate": 3.387424625328892e-05,
5650
+ "loss": 0.8415,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.005363890449018116,
5655
+ "grad_norm": 0.5096772313117981,
5656
+ "learning_rate": 3.376207585389447e-05,
5657
+ "loss": 0.8794,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.0053705371534159075,
5662
+ "grad_norm": 0.6946663856506348,
5663
+ "learning_rate": 3.3649996739263326e-05,
5664
+ "loss": 1.0822,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.005377183857813699,
5669
+ "grad_norm": 0.6458315253257751,
5670
+ "learning_rate": 3.353800953947079e-05,
5671
+ "loss": 0.8732,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.005383830562211492,
5676
+ "grad_norm": 0.5500379204750061,
5677
+ "learning_rate": 3.342611488407549e-05,
5678
+ "loss": 0.9068,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.0053904772666092836,
5683
+ "grad_norm": 0.8139527440071106,
5684
+ "learning_rate": 3.331431340211576e-05,
5685
+ "loss": 0.9336,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.005397123971007075,
5690
+ "grad_norm": 0.6902498602867126,
5691
+ "learning_rate": 3.3202605722106186e-05,
5692
+ "loss": 0.8824,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.005403770675404867,
5697
+ "grad_norm": 0.6358487606048584,
5698
+ "learning_rate": 3.309099247203401e-05,
5699
+ "loss": 0.9743,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.00541041737980266,
5704
+ "grad_norm": 0.8419442176818848,
5705
+ "learning_rate": 3.297947427935559e-05,
5706
+ "loss": 0.8796,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.005417064084200451,
5711
+ "grad_norm": 0.8624058365821838,
5712
+ "learning_rate": 3.286805177099293e-05,
5713
+ "loss": 0.8735,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.005423710788598243,
5718
+ "grad_norm": 1.113830327987671,
5719
+ "learning_rate": 3.275672557333015e-05,
5720
+ "loss": 0.8796,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.005430357492996035,
5725
+ "grad_norm": 0.7120754718780518,
5726
+ "learning_rate": 3.264549631220985e-05,
5727
+ "loss": 0.8,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.0054370041973938275,
5732
+ "grad_norm": 0.8254979252815247,
5733
+ "learning_rate": 3.253436461292978e-05,
5734
+ "loss": 0.702,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.005443650901791619,
5739
+ "grad_norm": 0.7647942900657654,
5740
+ "learning_rate": 3.2423331100239177e-05,
5741
+ "loss": 0.8197,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.005450297606189411,
5746
+ "grad_norm": 0.6956480145454407,
5747
+ "learning_rate": 3.231239639833531e-05,
5748
+ "loss": 0.8276,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.005456944310587203,
5753
+ "grad_norm": 0.9934280514717102,
5754
+ "learning_rate": 3.2201561130859957e-05,
5755
+ "loss": 0.8602,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.005463591014984995,
5760
+ "grad_norm": 0.9009010791778564,
5761
+ "learning_rate": 3.209082592089591e-05,
5762
+ "loss": 0.8127,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.005470237719382787,
5767
+ "grad_norm": 1.0514200925827026,
5768
+ "learning_rate": 3.1980191390963484e-05,
5769
+ "loss": 0.9751,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.005476884423780579,
5774
+ "grad_norm": 1.3160456418991089,
5775
+ "learning_rate": 3.1869658163017e-05,
5776
+ "loss": 0.8358,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.005483531128178371,
5781
+ "grad_norm": 1.054132342338562,
5782
+ "learning_rate": 3.175922685844125e-05,
5783
+ "loss": 0.6201,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.005490177832576163,
5788
+ "grad_norm": 0.984657883644104,
5789
+ "learning_rate": 3.164889809804808e-05,
5790
+ "loss": 1.0336,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.005496824536973955,
5795
+ "grad_norm": 1.1126635074615479,
5796
+ "learning_rate": 3.1538672502072817e-05,
5797
+ "loss": 0.8523,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.005503471241371747,
5802
+ "grad_norm": 0.7525351047515869,
5803
+ "learning_rate": 3.142855069017093e-05,
5804
+ "loss": 0.568,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.005510117945769539,
5809
+ "grad_norm": 0.9859227538108826,
5810
+ "learning_rate": 3.131853328141434e-05,
5811
+ "loss": 0.7202,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.005516764650167331,
5816
+ "grad_norm": 0.9517953991889954,
5817
+ "learning_rate": 3.12086208942881e-05,
5818
+ "loss": 0.7246,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.005523411354565123,
5823
+ "grad_norm": 0.9761250019073486,
5824
+ "learning_rate": 3.1098814146686834e-05,
5825
+ "loss": 1.0411,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.0055300580589629144,
5830
+ "grad_norm": 1.040299415588379,
5831
+ "learning_rate": 3.098911365591129e-05,
5832
+ "loss": 0.8767,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.005536704763360707,
5837
+ "grad_norm": 0.9226474165916443,
5838
+ "learning_rate": 3.087952003866492e-05,
5839
+ "loss": 0.6856,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.005543351467758499,
5844
+ "grad_norm": 0.9735934138298035,
5845
+ "learning_rate": 3.077003391105033e-05,
5846
+ "loss": 0.4014,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.0055499981721562905,
5851
+ "grad_norm": 1.027713418006897,
5852
+ "learning_rate": 3.0660655888565825e-05,
5853
+ "loss": 0.8747,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.005556644876554082,
5858
+ "grad_norm": 1.1405994892120361,
5859
+ "learning_rate": 3.055138658610202e-05,
5860
+ "loss": 0.6844,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.005563291580951875,
5865
+ "grad_norm": 1.0301321744918823,
5866
+ "learning_rate": 3.0442226617938307e-05,
5867
+ "loss": 0.6939,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.005569938285349667,
5872
+ "grad_norm": 1.1772515773773193,
5873
+ "learning_rate": 3.0333176597739476e-05,
5874
+ "loss": 0.4741,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.005576584989747458,
5879
+ "grad_norm": 1.322670340538025,
5880
+ "learning_rate": 3.022423713855218e-05,
5881
+ "loss": 0.6345,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.00558323169414525,
5886
+ "grad_norm": 1.449883222579956,
5887
+ "learning_rate": 3.0115408852801535e-05,
5888
+ "loss": 1.018,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.005589878398543043,
5893
+ "grad_norm": 1.06947660446167,
5894
+ "learning_rate": 3.00066923522877e-05,
5895
+ "loss": 0.6099,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.0055965251029408344,
5900
+ "grad_norm": 1.6659729480743408,
5901
+ "learning_rate": 2.9898088248182366e-05,
5902
+ "loss": 0.6934,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.005603171807338626,
5907
+ "grad_norm": 1.4211032390594482,
5908
+ "learning_rate": 2.9789597151025438e-05,
5909
+ "loss": 0.596,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.005609818511736418,
5914
+ "grad_norm": 1.7341675758361816,
5915
+ "learning_rate": 2.968121967072145e-05,
5916
+ "loss": 0.9223,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.0056164652161342105,
5921
+ "grad_norm": 1.3527710437774658,
5922
+ "learning_rate": 2.9572956416536267e-05,
5923
+ "loss": 0.4806,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.005623111920532002,
5928
+ "grad_norm": 1.7114077806472778,
5929
+ "learning_rate": 2.946480799709358e-05,
5930
+ "loss": 0.7749,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.005629758624929794,
5935
+ "grad_norm": 2.36133074760437,
5936
+ "learning_rate": 2.935677502037152e-05,
5937
+ "loss": 0.9725,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.005636405329327586,
5942
+ "grad_norm": 1.736711025238037,
5943
+ "learning_rate": 2.924885809369926e-05,
5944
+ "loss": 0.9024,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.005643052033725378,
5949
+ "grad_norm": 2.3337650299072266,
5950
+ "learning_rate": 2.9141057823753548e-05,
5951
+ "loss": 0.6143,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.00564969873812317,
5956
+ "grad_norm": 4.121450424194336,
5957
+ "learning_rate": 2.9033374816555338e-05,
5958
+ "loss": 1.1379,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.005656345442520962,
5963
+ "grad_norm": 0.3683931827545166,
5964
+ "learning_rate": 2.892580967746633e-05,
5965
+ "loss": 0.9842,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.005662992146918754,
5970
+ "grad_norm": 0.49938151240348816,
5971
+ "learning_rate": 2.8818363011185647e-05,
5972
+ "loss": 0.9464,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.005669638851316546,
5977
+ "grad_norm": 0.6275522708892822,
5978
+ "learning_rate": 2.8711035421746367e-05,
5979
+ "loss": 0.7492,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.005676285555714338,
5984
+ "grad_norm": 0.5167999267578125,
5985
+ "learning_rate": 2.86038275125122e-05,
5986
+ "loss": 0.6106,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.00568293226011213,
5991
+ "grad_norm": 0.7422475814819336,
5992
+ "learning_rate": 2.8496739886173995e-05,
5993
+ "loss": 0.713,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.005689578964509922,
5998
+ "grad_norm": 0.6441875100135803,
5999
+ "learning_rate": 2.83897731447464e-05,
6000
+ "loss": 0.6015,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.005696225668907714,
6005
+ "grad_norm": 0.7126911878585815,
6006
+ "learning_rate": 2.8282927889564542e-05,
6007
+ "loss": 0.7766,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.005702872373305506,
6012
+ "grad_norm": 0.7499037981033325,
6013
+ "learning_rate": 2.8176204721280563e-05,
6014
+ "loss": 0.6112,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.0057095190777032975,
6019
+ "grad_norm": 0.5948365330696106,
6020
+ "learning_rate": 2.806960423986026e-05,
6021
+ "loss": 0.8759,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.00571616578210109,
6026
+ "grad_norm": 0.6240098476409912,
6027
+ "learning_rate": 2.7963127044579697e-05,
6028
+ "loss": 0.9862,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.005722812486498882,
6033
+ "grad_norm": 0.7282832264900208,
6034
+ "learning_rate": 2.7856773734021913e-05,
6035
+ "loss": 0.6017,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.005729459190896674,
6040
+ "grad_norm": 0.6713678240776062,
6041
+ "learning_rate": 2.7750544906073463e-05,
6042
+ "loss": 0.8692,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.005736105895294465,
6047
+ "grad_norm": 0.6113742589950562,
6048
+ "learning_rate": 2.764444115792113e-05,
6049
+ "loss": 0.9001,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.005742752599692258,
6054
+ "grad_norm": 0.6918427348136902,
6055
+ "learning_rate": 2.7538463086048504e-05,
6056
+ "loss": 0.8363,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.00574939930409005,
6061
+ "grad_norm": 0.9629685282707214,
6062
+ "learning_rate": 2.743261128623269e-05,
6063
+ "loss": 0.9178,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.005756046008487841,
6068
+ "grad_norm": 0.7158761024475098,
6069
+ "learning_rate": 2.7326886353540916e-05,
6070
+ "loss": 0.7963,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.005762692712885633,
6075
+ "grad_norm": 0.6633831858634949,
6076
+ "learning_rate": 2.7221288882327167e-05,
6077
+ "loss": 0.7058,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.005769339417283426,
6082
+ "grad_norm": 0.7890012264251709,
6083
+ "learning_rate": 2.711581946622893e-05,
6084
+ "loss": 0.7596,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.0057759861216812175,
6089
+ "grad_norm": 0.743654727935791,
6090
+ "learning_rate": 2.701047869816381e-05,
6091
+ "loss": 0.9293,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.005782632826079009,
6096
+ "grad_norm": 0.9647628664970398,
6097
+ "learning_rate": 2.6905267170326143e-05,
6098
+ "loss": 0.7642,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.005789279530476801,
6103
+ "grad_norm": 0.7934918403625488,
6104
+ "learning_rate": 2.6800185474183725e-05,
6105
+ "loss": 0.9243,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.005795926234874594,
6110
+ "grad_norm": 0.8000086545944214,
6111
+ "learning_rate": 2.6695234200474495e-05,
6112
+ "loss": 0.9556,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.005802572939272385,
6117
+ "grad_norm": 0.774133563041687,
6118
+ "learning_rate": 2.6590413939203228e-05,
6119
+ "loss": 0.7859,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.005809219643670177,
6124
+ "grad_norm": 0.994034469127655,
6125
+ "learning_rate": 2.6485725279638113e-05,
6126
+ "loss": 0.8363,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.005815866348067969,
6131
+ "grad_norm": 0.8750971555709839,
6132
+ "learning_rate": 2.6381168810307533e-05,
6133
+ "loss": 0.92,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.005822513052465761,
6138
+ "grad_norm": 1.1995213031768799,
6139
+ "learning_rate": 2.627674511899678e-05,
6140
+ "loss": 0.7646,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.005829159756863553,
6145
+ "grad_norm": 0.8142304420471191,
6146
+ "learning_rate": 2.6172454792744706e-05,
6147
+ "loss": 0.867,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.005835806461261345,
6152
+ "grad_norm": 0.9330615401268005,
6153
+ "learning_rate": 2.6068298417840364e-05,
6154
+ "loss": 0.8755,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.005842453165659137,
6159
+ "grad_norm": 1.0684067010879517,
6160
+ "learning_rate": 2.596427657981979e-05,
6161
+ "loss": 0.8391,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.005849099870056929,
6166
+ "grad_norm": 0.7989206910133362,
6167
+ "learning_rate": 2.5860389863462765e-05,
6168
+ "loss": 0.7431,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.005855746574454721,
6173
+ "grad_norm": 0.8344511389732361,
6174
+ "learning_rate": 2.575663885278935e-05,
6175
+ "loss": 0.725,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.005862393278852513,
6180
+ "grad_norm": 1.2674167156219482,
6181
+ "learning_rate": 2.5653024131056802e-05,
6182
+ "loss": 0.9218,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.005869039983250305,
6187
+ "grad_norm": 1.206439733505249,
6188
+ "learning_rate": 2.5549546280756137e-05,
6189
+ "loss": 0.7342,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.005875686687648097,
6194
+ "grad_norm": 1.1278153657913208,
6195
+ "learning_rate": 2.544620588360897e-05,
6196
+ "loss": 0.8005,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.005882333392045889,
6201
+ "grad_norm": 1.1391501426696777,
6202
+ "learning_rate": 2.5343003520564158e-05,
6203
+ "loss": 0.8529,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.0058889800964436806,
6208
+ "grad_norm": 0.9958661794662476,
6209
+ "learning_rate": 2.5239939771794563e-05,
6210
+ "loss": 0.7329,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.005895626800841473,
6215
+ "grad_norm": 1.1319859027862549,
6216
+ "learning_rate": 2.5137015216693848e-05,
6217
+ "loss": 0.7973,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.005902273505239265,
6222
+ "grad_norm": 1.1556273698806763,
6223
+ "learning_rate": 2.5034230433873153e-05,
6224
+ "loss": 0.8337,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.005908920209637057,
6229
+ "grad_norm": 1.0099126100540161,
6230
+ "learning_rate": 2.4931586001157835e-05,
6231
+ "loss": 0.7135,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.005915566914034848,
6236
+ "grad_norm": 1.1238211393356323,
6237
+ "learning_rate": 2.4829082495584242e-05,
6238
+ "loss": 0.5285,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.005922213618432641,
6243
+ "grad_norm": 1.2216733694076538,
6244
+ "learning_rate": 2.4726720493396512e-05,
6245
+ "loss": 0.7336,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.005928860322830433,
6250
+ "grad_norm": 1.766696572303772,
6251
+ "learning_rate": 2.4624500570043278e-05,
6252
+ "loss": 0.8474,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.0059355070272282245,
6257
+ "grad_norm": 1.1542131900787354,
6258
+ "learning_rate": 2.4522423300174437e-05,
6259
+ "loss": 0.7923,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.005942153731626016,
6264
+ "grad_norm": 1.332521915435791,
6265
+ "learning_rate": 2.4420489257637906e-05,
6266
+ "loss": 0.7754,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.005948800436023809,
6271
+ "grad_norm": 1.6716405153274536,
6272
+ "learning_rate": 2.4318699015476493e-05,
6273
+ "loss": 0.7301,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.0059554471404216006,
6278
+ "grad_norm": 1.6850249767303467,
6279
+ "learning_rate": 2.421705314592452e-05,
6280
+ "loss": 0.7965,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.005962093844819392,
6285
+ "grad_norm": 1.4353415966033936,
6286
+ "learning_rate": 2.4115552220404765e-05,
6287
+ "loss": 0.6851,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.005968740549217184,
6292
+ "grad_norm": 2.0517685413360596,
6293
+ "learning_rate": 2.4014196809525102e-05,
6294
+ "loss": 1.0993,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.005975387253614977,
6299
+ "grad_norm": 2.061101198196411,
6300
+ "learning_rate": 2.391298748307544e-05,
6301
+ "loss": 0.6542,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.005982033958012768,
6306
+ "grad_norm": 2.91339373588562,
6307
+ "learning_rate": 2.3811924810024384e-05,
6308
+ "loss": 0.7534,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.00598868066241056,
6313
+ "grad_norm": 0.3465811312198639,
6314
+ "learning_rate": 2.3711009358516102e-05,
6315
+ "loss": 0.9504,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.005995327366808352,
6320
+ "grad_norm": 0.5000481605529785,
6321
+ "learning_rate": 2.3610241695867163e-05,
6322
+ "loss": 0.8834,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.0060019740712061445,
6327
+ "grad_norm": 0.871720552444458,
6328
+ "learning_rate": 2.3509622388563313e-05,
6329
+ "loss": 0.6535,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.006008620775603936,
6334
+ "grad_norm": 0.9901016354560852,
6335
+ "learning_rate": 2.3409152002256247e-05,
6336
+ "loss": 1.0592,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.006015267480001728,
6341
+ "grad_norm": 0.6650891304016113,
6342
+ "learning_rate": 2.3308831101760486e-05,
6343
+ "loss": 0.9605,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.00602191418439952,
6348
+ "grad_norm": 0.6247522830963135,
6349
+ "learning_rate": 2.3208660251050158e-05,
6350
+ "loss": 0.8668,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.006028560888797312,
6355
+ "grad_norm": 0.8756898641586304,
6356
+ "learning_rate": 2.3108640013255968e-05,
6357
+ "loss": 0.9702,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.006035207593195104,
6362
+ "grad_norm": 0.618049144744873,
6363
+ "learning_rate": 2.30087709506618e-05,
6364
+ "loss": 0.7552,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.006041854297592896,
6369
+ "grad_norm": 0.8775025010108948,
6370
+ "learning_rate": 2.2909053624701715e-05,
6371
+ "loss": 0.7956,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.006048501001990688,
6376
+ "grad_norm": 0.6528658866882324,
6377
+ "learning_rate": 2.2809488595956745e-05,
6378
+ "loss": 0.7783,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.00605514770638848,
6383
+ "grad_norm": 0.5745322704315186,
6384
+ "learning_rate": 2.2710076424151788e-05,
6385
+ "loss": 0.9813,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.006061794410786272,
6390
+ "grad_norm": 0.8731324076652527,
6391
+ "learning_rate": 2.2610817668152413e-05,
6392
+ "loss": 0.8946,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.006068441115184064,
6397
+ "grad_norm": 0.7682494521141052,
6398
+ "learning_rate": 2.251171288596171e-05,
6399
+ "loss": 0.9534,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.006075087819581856,
6404
+ "grad_norm": 0.7490772008895874,
6405
+ "learning_rate": 2.241276263471716e-05,
6406
+ "loss": 0.8044,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.006081734523979648,
6411
+ "grad_norm": 0.7320804595947266,
6412
+ "learning_rate": 2.2313967470687593e-05,
6413
+ "loss": 0.7225,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.00608838122837744,
6418
+ "grad_norm": 0.8209467530250549,
6419
+ "learning_rate": 2.2215327949269886e-05,
6420
+ "loss": 0.773,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.0060950279327752314,
6425
+ "grad_norm": 0.7817612290382385,
6426
+ "learning_rate": 2.2116844624986037e-05,
6427
+ "loss": 0.8568,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.006101674637173024,
6432
+ "grad_norm": 0.7729702591896057,
6433
+ "learning_rate": 2.201851805147986e-05,
6434
+ "loss": 0.9524,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.006108321341570816,
6439
+ "grad_norm": 0.8721408247947693,
6440
+ "learning_rate": 2.192034878151404e-05,
6441
+ "loss": 0.9534,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.0061149680459686075,
6446
+ "grad_norm": 0.7396866083145142,
6447
+ "learning_rate": 2.1822337366966898e-05,
6448
+ "loss": 0.8427,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.006121614750366399,
6453
+ "grad_norm": 0.8488925695419312,
6454
+ "learning_rate": 2.1724484358829338e-05,
6455
+ "loss": 0.8558,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.006128261454764192,
6460
+ "grad_norm": 0.8868795037269592,
6461
+ "learning_rate": 2.1626790307201778e-05,
6462
+ "loss": 0.6768,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.006134908159161984,
6467
+ "grad_norm": 0.9627169966697693,
6468
+ "learning_rate": 2.1529255761291052e-05,
6469
+ "loss": 0.6102,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.006141554863559775,
6474
+ "grad_norm": 0.9614560604095459,
6475
+ "learning_rate": 2.1431881269407233e-05,
6476
+ "loss": 0.7419,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.006148201567957567,
6481
+ "grad_norm": 0.9442191123962402,
6482
+ "learning_rate": 2.1334667378960644e-05,
6483
+ "loss": 0.9619,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.00615484827235536,
6488
+ "grad_norm": 0.8390161991119385,
6489
+ "learning_rate": 2.123761463645878e-05,
6490
+ "loss": 0.8088,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.0061614949767531514,
6495
+ "grad_norm": 0.9244080781936646,
6496
+ "learning_rate": 2.114072358750321e-05,
6497
+ "loss": 0.875,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.006168141681150943,
6502
+ "grad_norm": 0.9828105568885803,
6503
+ "learning_rate": 2.1043994776786473e-05,
6504
+ "loss": 0.7579,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.006174788385548735,
6509
+ "grad_norm": 0.8843576908111572,
6510
+ "learning_rate": 2.0947428748089066e-05,
6511
+ "loss": 0.6549,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.0061814350899465275,
6516
+ "grad_norm": 1.1693994998931885,
6517
+ "learning_rate": 2.0851026044276406e-05,
6518
+ "loss": 0.9206,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.006188081794344319,
6523
+ "grad_norm": 1.1045140027999878,
6524
+ "learning_rate": 2.0754787207295696e-05,
6525
+ "loss": 0.8276,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.006194728498742111,
6530
+ "grad_norm": 0.9659402966499329,
6531
+ "learning_rate": 2.0658712778172982e-05,
6532
+ "loss": 0.8977,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.006201375203139903,
6537
+ "grad_norm": 0.9211580157279968,
6538
+ "learning_rate": 2.0562803297009996e-05,
6539
+ "loss": 0.7761,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.006208021907537695,
6544
+ "grad_norm": 1.2015657424926758,
6545
+ "learning_rate": 2.0467059302981263e-05,
6546
+ "loss": 0.8824,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.006214668611935487,
6551
+ "grad_norm": 1.3020975589752197,
6552
+ "learning_rate": 2.0371481334330912e-05,
6553
+ "loss": 0.9115,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.006221315316333279,
6558
+ "grad_norm": 0.8667546510696411,
6559
+ "learning_rate": 2.0276069928369746e-05,
6560
+ "loss": 0.5838,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.006227962020731071,
6565
+ "grad_norm": 1.300489068031311,
6566
+ "learning_rate": 2.0180825621472227e-05,
6567
+ "loss": 0.6866,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.006234608725128863,
6572
+ "grad_norm": 1.0658702850341797,
6573
+ "learning_rate": 2.0085748949073446e-05,
6574
+ "loss": 0.795,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.006241255429526655,
6579
+ "grad_norm": 1.0691542625427246,
6580
+ "learning_rate": 1.9990840445666054e-05,
6581
+ "loss": 0.88,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.006247902133924447,
6586
+ "grad_norm": 1.6725701093673706,
6587
+ "learning_rate": 1.9896100644797317e-05,
6588
+ "loss": 1.0337,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.006254548838322239,
6593
+ "grad_norm": 1.0296176671981812,
6594
+ "learning_rate": 1.9801530079066137e-05,
6595
+ "loss": 0.4251,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.006261195542720031,
6600
+ "grad_norm": 1.954781174659729,
6601
+ "learning_rate": 1.9707129280120036e-05,
6602
+ "loss": 0.7169,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.006267842247117823,
6607
+ "grad_norm": 1.4644161462783813,
6608
+ "learning_rate": 1.96128987786521e-05,
6609
+ "loss": 0.49,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.0062744889515156145,
6614
+ "grad_norm": 1.8161664009094238,
6615
+ "learning_rate": 1.9518839104398075e-05,
6616
+ "loss": 0.9943,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.006281135655913407,
6621
+ "grad_norm": 1.5679110288619995,
6622
+ "learning_rate": 1.942495078613341e-05,
6623
+ "loss": 0.8934,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.006287782360311199,
6628
+ "grad_norm": 1.837007999420166,
6629
+ "learning_rate": 1.933123435167018e-05,
6630
+ "loss": 0.8163,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.006294429064708991,
6635
+ "grad_norm": 1.9493184089660645,
6636
+ "learning_rate": 1.9237690327854236e-05,
6637
+ "loss": 0.9895,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.006301075769106782,
6642
+ "grad_norm": 1.4512784481048584,
6643
+ "learning_rate": 1.9144319240562125e-05,
6644
+ "loss": 0.6742,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.006307722473504575,
6649
+ "grad_norm": 1.9372994899749756,
6650
+ "learning_rate": 1.9051121614698276e-05,
6651
+ "loss": 0.6534,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.006314369177902367,
6656
+ "grad_norm": 4.261740207672119,
6657
+ "learning_rate": 1.8958097974191907e-05,
6658
+ "loss": 0.7541,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.006321015882300158,
6663
+ "grad_norm": 0.39013972878456116,
6664
+ "learning_rate": 1.8865248841994143e-05,
6665
+ "loss": 0.7921,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.00632766258669795,
6670
+ "grad_norm": 0.5134124755859375,
6671
+ "learning_rate": 1.877257474007511e-05,
6672
+ "loss": 0.961,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.006334309291095743,
6677
+ "grad_norm": 0.9366634488105774,
6678
+ "learning_rate": 1.8680076189420964e-05,
6679
+ "loss": 0.8541,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.0063409559954935345,
6684
+ "grad_norm": 0.532407820224762,
6685
+ "learning_rate": 1.858775371003094e-05,
6686
+ "loss": 1.0254,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.006347602699891326,
6691
+ "grad_norm": 0.7640518546104431,
6692
+ "learning_rate": 1.849560782091445e-05,
6693
+ "loss": 0.9868,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.006354249404289118,
6698
+ "grad_norm": 0.49766799807548523,
6699
+ "learning_rate": 1.840363904008819e-05,
6700
+ "loss": 0.8374,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.006360896108686911,
6705
+ "grad_norm": 0.7397210597991943,
6706
+ "learning_rate": 1.831184788457321e-05,
6707
+ "loss": 0.8034,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.006367542813084702,
6712
+ "grad_norm": 0.5797079801559448,
6713
+ "learning_rate": 1.8220234870391983e-05,
6714
+ "loss": 1.059,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.006374189517482494,
6719
+ "grad_norm": 0.634558379650116,
6720
+ "learning_rate": 1.8128800512565513e-05,
6721
+ "loss": 0.8126,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.006380836221880286,
6726
+ "grad_norm": 0.604607343673706,
6727
+ "learning_rate": 1.8037545325110504e-05,
6728
+ "loss": 0.9754,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.006387482926278078,
6733
+ "grad_norm": 0.6816580295562744,
6734
+ "learning_rate": 1.7946469821036354e-05,
6735
+ "loss": 0.7716,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.00639412963067587,
6740
+ "grad_norm": 0.6408112049102783,
6741
+ "learning_rate": 1.7855574512342397e-05,
6742
+ "loss": 0.6089,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.006400776335073662,
6747
+ "grad_norm": 0.609083890914917,
6748
+ "learning_rate": 1.7764859910014893e-05,
6749
+ "loss": 0.9005,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.006407423039471454,
6754
+ "grad_norm": 1.0609853267669678,
6755
+ "learning_rate": 1.7674326524024298e-05,
6756
+ "loss": 0.764,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.006414069743869246,
6761
+ "grad_norm": 0.5911771059036255,
6762
+ "learning_rate": 1.7583974863322274e-05,
6763
+ "loss": 1.0236,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.006420716448267038,
6768
+ "grad_norm": 0.6928749084472656,
6769
+ "learning_rate": 1.7493805435838874e-05,
6770
+ "loss": 0.7597,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.00642736315266483,
6775
+ "grad_norm": 0.8709490299224854,
6776
+ "learning_rate": 1.7403818748479715e-05,
6777
+ "loss": 0.6517,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.006434009857062622,
6782
+ "grad_norm": 0.6218889355659485,
6783
+ "learning_rate": 1.7314015307123133e-05,
6784
+ "loss": 0.9283,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.006440656561460414,
6789
+ "grad_norm": 0.7528246641159058,
6790
+ "learning_rate": 1.7224395616617235e-05,
6791
+ "loss": 0.7588,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.006447303265858206,
6796
+ "grad_norm": 0.7978760004043579,
6797
+ "learning_rate": 1.713496018077717e-05,
6798
+ "loss": 0.6017,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.0064539499702559976,
6803
+ "grad_norm": 0.8703947067260742,
6804
+ "learning_rate": 1.7045709502382285e-05,
6805
+ "loss": 0.8674,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.00646059667465379,
6810
+ "grad_norm": 0.8785549402236938,
6811
+ "learning_rate": 1.6956644083173262e-05,
6812
+ "loss": 0.6892,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.006467243379051582,
6817
+ "grad_norm": 0.9214485883712769,
6818
+ "learning_rate": 1.6867764423849296e-05,
6819
+ "loss": 0.6507,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.006473890083449374,
6824
+ "grad_norm": 0.7563501000404358,
6825
+ "learning_rate": 1.677907102406529e-05,
6826
+ "loss": 0.7163,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.006480536787847165,
6831
+ "grad_norm": 0.9271652102470398,
6832
+ "learning_rate": 1.66905643824291e-05,
6833
+ "loss": 0.8399,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.006487183492244958,
6838
+ "grad_norm": 0.906379759311676,
6839
+ "learning_rate": 1.660224499649861e-05,
6840
+ "loss": 0.6255,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.00649383019664275,
6845
+ "grad_norm": 0.7881162762641907,
6846
+ "learning_rate": 1.6514113362779092e-05,
6847
+ "loss": 0.7797,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.0065004769010405415,
6852
+ "grad_norm": 0.9204055666923523,
6853
+ "learning_rate": 1.6426169976720245e-05,
6854
+ "loss": 0.8043,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.006507123605438333,
6859
+ "grad_norm": 0.9636942148208618,
6860
+ "learning_rate": 1.6338415332713576e-05,
6861
+ "loss": 0.8895,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.006513770309836126,
6866
+ "grad_norm": 0.8163102269172668,
6867
+ "learning_rate": 1.6250849924089484e-05,
6868
+ "loss": 0.9835,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.006520417014233918,
6873
+ "grad_norm": 1.0948930978775024,
6874
+ "learning_rate": 1.616347424311455e-05,
6875
+ "loss": 0.58,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.006527063718631709,
6880
+ "grad_norm": 1.122653603553772,
6881
+ "learning_rate": 1.607628878098879e-05,
6882
+ "loss": 0.8378,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.006533710423029501,
6887
+ "grad_norm": 0.9559472799301147,
6888
+ "learning_rate": 1.5989294027842867e-05,
6889
+ "loss": 0.6431,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.006540357127427294,
6894
+ "grad_norm": 1.3170665502548218,
6895
+ "learning_rate": 1.59024904727353e-05,
6896
+ "loss": 0.4975,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.006547003831825085,
6901
+ "grad_norm": 1.3573777675628662,
6902
+ "learning_rate": 1.581587860364977e-05,
6903
+ "loss": 0.7293,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.006553650536222877,
6908
+ "grad_norm": 0.9671066403388977,
6909
+ "learning_rate": 1.5729458907492327e-05,
6910
+ "loss": 0.9002,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.006560297240620669,
6915
+ "grad_norm": 1.218948245048523,
6916
+ "learning_rate": 1.5643231870088772e-05,
6917
+ "loss": 0.8514,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.0065669439450184615,
6922
+ "grad_norm": 1.1144795417785645,
6923
+ "learning_rate": 1.5557197976181744e-05,
6924
+ "loss": 0.8713,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.006573590649416253,
6929
+ "grad_norm": 1.354432463645935,
6930
+ "learning_rate": 1.5471357709428093e-05,
6931
+ "loss": 0.9549,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.006580237353814045,
6936
+ "grad_norm": 1.4001054763793945,
6937
+ "learning_rate": 1.5385711552396227e-05,
6938
+ "loss": 1.1086,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.006586884058211837,
6943
+ "grad_norm": 1.5661379098892212,
6944
+ "learning_rate": 1.5300259986563232e-05,
6945
+ "loss": 0.8944,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.006593530762609629,
6950
+ "grad_norm": 1.2172316312789917,
6951
+ "learning_rate": 1.5215003492312351e-05,
6952
+ "loss": 1.0221,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.006600177467007421,
6957
+ "grad_norm": 1.4772396087646484,
6958
+ "learning_rate": 1.5129942548930115e-05,
6959
+ "loss": 0.4565,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.006606824171405213,
6964
+ "grad_norm": 1.6136627197265625,
6965
+ "learning_rate": 1.5045077634603787e-05,
6966
+ "loss": 0.9532,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.006613470875803005,
6971
+ "grad_norm": 1.4357903003692627,
6972
+ "learning_rate": 1.4960409226418576e-05,
6973
+ "loss": 0.5671,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.006620117580200797,
6978
+ "grad_norm": 1.6323310136795044,
6979
+ "learning_rate": 1.4875937800354988e-05,
6980
+ "loss": 0.8964,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.006626764284598589,
6985
+ "grad_norm": 1.6246354579925537,
6986
+ "learning_rate": 1.4791663831286184e-05,
6987
+ "loss": 0.9035,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.006633410988996381,
6992
+ "grad_norm": 2.0185391902923584,
6993
+ "learning_rate": 1.470758779297528e-05,
6994
+ "loss": 0.9129,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.006640057693394173,
6999
+ "grad_norm": 1.7859017848968506,
7000
+ "learning_rate": 1.4623710158072663e-05,
7001
+ "loss": 0.772,
7002
+ "step": 999
7003
  }
7004
  ],
7005
  "logging_steps": 1,
 
7019
  "attributes": {}
7020
  }
7021
  },
7022
+ "total_flos": 2.7808050135957504e+17,
7023
  "train_batch_size": 4,
7024
  "trial_name": null,
7025
  "trial_params": null