jssky commited on
Commit
562943b
·
verified ·
1 Parent(s): 35fb133

Training in progress, step 1000, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:da06847a256ba2e79c525eb16e8bf0895a870e0b9c884149732fa3e74f3fbb0d
3
  size 319876032
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:30134974419e8591d77ed599ded24625c96bbce63c3fb6a5c485df3ec37d0414
3
  size 319876032
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:56aad5da430e0a57a4396ec95a40cdc8bebda2217fca1503c7f20fc6a5eecd6e
3
  size 162933844
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:956b04317d8173a1c87e073ce977c7b0823805cc606a76bf83def83b145717fa
3
  size 162933844
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:09c17c551ba84fb3809942d1b6a89b6beb0a39e8c41c9cdb291d15620c5e0694
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b9645717d61a33a126997db1d599e14fed37f0239340b34de289c7e5408433e0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6cf13def61641dc944e9edbf416e7eb9f3aaa5a8dc09cbff5b8590b9b4880ce1
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4077036d99500a708f700f75da24d51b5300e184ad35fda49dc5a4df5596cca2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.13782358169555664,
3
- "best_model_checkpoint": "miner_id_24_0/checkpoint-800",
4
- "epoch": 0.7508212106992023,
5
  "eval_steps": 200,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5639,6 +5639,1414 @@
5639
  "eval_samples_per_second": 6.597,
5640
  "eval_steps_per_second": 1.65,
5641
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5642
  }
5643
  ],
5644
  "logging_steps": 1,
@@ -5662,12 +7070,12 @@
5662
  "should_evaluate": false,
5663
  "should_log": false,
5664
  "should_save": true,
5665
- "should_training_stop": false
5666
  },
5667
  "attributes": {}
5668
  }
5669
  },
5670
- "total_flos": 1.9560774520736317e+18,
5671
  "train_batch_size": 8,
5672
  "trial_name": null,
5673
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.13689762353897095,
3
+ "best_model_checkpoint": "miner_id_24_0/checkpoint-1000",
4
+ "epoch": 0.9385265133740028,
5
  "eval_steps": 200,
6
+ "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5639
  "eval_samples_per_second": 6.597,
5640
  "eval_steps_per_second": 1.65,
5641
  "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.7517597372125763,
5645
+ "grad_norm": 0.37995558977127075,
5646
+ "learning_rate": 9.642615503142926e-06,
5647
+ "loss": 0.3033,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.7526982637259503,
5652
+ "grad_norm": 0.4061473309993744,
5653
+ "learning_rate": 9.549150281252633e-06,
5654
+ "loss": 0.2542,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.7536367902393243,
5659
+ "grad_norm": 0.4331178367137909,
5660
+ "learning_rate": 9.456092398969902e-06,
5661
+ "loss": 0.2101,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.7545753167526983,
5666
+ "grad_norm": 0.3899441957473755,
5667
+ "learning_rate": 9.363442793386606e-06,
5668
+ "loss": 0.227,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.7555138432660723,
5673
+ "grad_norm": 0.3825538158416748,
5674
+ "learning_rate": 9.271202397483215e-06,
5675
+ "loss": 0.1685,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.7564523697794463,
5680
+ "grad_norm": 0.3898446559906006,
5681
+ "learning_rate": 9.179372140119525e-06,
5682
+ "loss": 0.2196,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.7573908962928203,
5687
+ "grad_norm": 0.39593446254730225,
5688
+ "learning_rate": 9.087952946025175e-06,
5689
+ "loss": 0.1809,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.7583294228061943,
5694
+ "grad_norm": 0.3446662724018097,
5695
+ "learning_rate": 8.996945735790447e-06,
5696
+ "loss": 0.0822,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.7592679493195683,
5701
+ "grad_norm": 0.4207935929298401,
5702
+ "learning_rate": 8.906351425856952e-06,
5703
+ "loss": 0.1599,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.7602064758329423,
5708
+ "grad_norm": 0.5199048519134521,
5709
+ "learning_rate": 8.816170928508365e-06,
5710
+ "loss": 0.1942,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.7611450023463163,
5715
+ "grad_norm": 0.4641600549221039,
5716
+ "learning_rate": 8.7264051518613e-06,
5717
+ "loss": 0.2036,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.7620835288596903,
5722
+ "grad_norm": 0.41371288895606995,
5723
+ "learning_rate": 8.637054999856148e-06,
5724
+ "loss": 0.2049,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.7630220553730643,
5729
+ "grad_norm": 0.4736957550048828,
5730
+ "learning_rate": 8.548121372247918e-06,
5731
+ "loss": 0.1724,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.7639605818864383,
5736
+ "grad_norm": 0.3922059237957001,
5737
+ "learning_rate": 8.459605164597267e-06,
5738
+ "loss": 0.1631,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.7648991083998123,
5743
+ "grad_norm": 0.3857942521572113,
5744
+ "learning_rate": 8.371507268261437e-06,
5745
+ "loss": 0.1752,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.7658376349131863,
5750
+ "grad_norm": 0.40592941641807556,
5751
+ "learning_rate": 8.283828570385238e-06,
5752
+ "loss": 0.1873,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.7667761614265604,
5757
+ "grad_norm": 0.5208810567855835,
5758
+ "learning_rate": 8.196569953892202e-06,
5759
+ "loss": 0.1309,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.7677146879399342,
5764
+ "grad_norm": 0.4736822247505188,
5765
+ "learning_rate": 8.109732297475635e-06,
5766
+ "loss": 0.1528,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.7686532144533083,
5771
+ "grad_norm": 0.4298925995826721,
5772
+ "learning_rate": 8.023316475589754e-06,
5773
+ "loss": 0.1553,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.7695917409666823,
5778
+ "grad_norm": 0.39267462491989136,
5779
+ "learning_rate": 7.937323358440935e-06,
5780
+ "loss": 0.169,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.7705302674800563,
5785
+ "grad_norm": 0.486622154712677,
5786
+ "learning_rate": 7.851753811978924e-06,
5787
+ "loss": 0.1872,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.7714687939934303,
5792
+ "grad_norm": 0.3517168462276459,
5793
+ "learning_rate": 7.766608697888095e-06,
5794
+ "loss": 0.1428,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.7724073205068043,
5799
+ "grad_norm": 0.38460755348205566,
5800
+ "learning_rate": 7.681888873578786e-06,
5801
+ "loss": 0.1251,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.7733458470201783,
5806
+ "grad_norm": 0.43166354298591614,
5807
+ "learning_rate": 7.597595192178702e-06,
5808
+ "loss": 0.1483,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.7742843735335523,
5813
+ "grad_norm": 0.4993783235549927,
5814
+ "learning_rate": 7.513728502524286e-06,
5815
+ "loss": 0.1394,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.7752229000469263,
5820
+ "grad_norm": 0.3921997845172882,
5821
+ "learning_rate": 7.430289649152156e-06,
5822
+ "loss": 0.1264,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.7761614265603003,
5827
+ "grad_norm": 0.48391735553741455,
5828
+ "learning_rate": 7.347279472290647e-06,
5829
+ "loss": 0.1503,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.7770999530736743,
5834
+ "grad_norm": 0.3077024817466736,
5835
+ "learning_rate": 7.264698807851328e-06,
5836
+ "loss": 0.1183,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.7780384795870483,
5841
+ "grad_norm": 0.5007216334342957,
5842
+ "learning_rate": 7.182548487420554e-06,
5843
+ "loss": 0.126,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.7789770061004223,
5848
+ "grad_norm": 0.45453548431396484,
5849
+ "learning_rate": 7.100829338251147e-06,
5850
+ "loss": 0.1293,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.7799155326137963,
5855
+ "grad_norm": 0.36271223425865173,
5856
+ "learning_rate": 7.019542183254046e-06,
5857
+ "loss": 0.1105,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.7808540591271703,
5862
+ "grad_norm": 0.431819349527359,
5863
+ "learning_rate": 6.9386878409899715e-06,
5864
+ "loss": 0.1376,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.7817925856405443,
5869
+ "grad_norm": 0.3805570602416992,
5870
+ "learning_rate": 6.858267125661272e-06,
5871
+ "loss": 0.13,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.7827311121539183,
5876
+ "grad_norm": 0.5477021932601929,
5877
+ "learning_rate": 6.778280847103669e-06,
5878
+ "loss": 0.1747,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.7836696386672923,
5883
+ "grad_norm": 0.5761867761611938,
5884
+ "learning_rate": 6.698729810778065e-06,
5885
+ "loss": 0.1655,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.7846081651806663,
5890
+ "grad_norm": 0.6479731202125549,
5891
+ "learning_rate": 6.619614817762537e-06,
5892
+ "loss": 0.1581,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.7855466916940403,
5897
+ "grad_norm": 0.6504718065261841,
5898
+ "learning_rate": 6.540936664744196e-06,
5899
+ "loss": 0.1415,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.7864852182074143,
5904
+ "grad_norm": 0.6476323008537292,
5905
+ "learning_rate": 6.462696144011149e-06,
5906
+ "loss": 0.1629,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.7874237447207884,
5911
+ "grad_norm": 0.5196964740753174,
5912
+ "learning_rate": 6.384894043444567e-06,
5913
+ "loss": 0.1319,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.7883622712341624,
5918
+ "grad_norm": 0.6058955788612366,
5919
+ "learning_rate": 6.3075311465107535e-06,
5920
+ "loss": 0.0939,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.7893007977475364,
5925
+ "grad_norm": 0.627560019493103,
5926
+ "learning_rate": 6.230608232253227e-06,
5927
+ "loss": 0.099,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.7902393242609104,
5932
+ "grad_norm": 0.25703734159469604,
5933
+ "learning_rate": 6.154126075284855e-06,
5934
+ "loss": 0.0332,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.7911778507742844,
5939
+ "grad_norm": 0.44865989685058594,
5940
+ "learning_rate": 6.078085445780129e-06,
5941
+ "loss": 0.0611,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.7921163772876584,
5946
+ "grad_norm": 0.34382519125938416,
5947
+ "learning_rate": 6.002487109467347e-06,
5948
+ "loss": 0.0401,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.7930549038010324,
5953
+ "grad_norm": 0.4155806303024292,
5954
+ "learning_rate": 5.927331827620903e-06,
5955
+ "loss": 0.0377,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.7939934303144064,
5960
+ "grad_norm": 0.356509268283844,
5961
+ "learning_rate": 5.852620357053651e-06,
5962
+ "loss": 0.0437,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.7949319568277804,
5967
+ "grad_norm": 0.36682143807411194,
5968
+ "learning_rate": 5.778353450109286e-06,
5969
+ "loss": 0.0262,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.7958704833411544,
5974
+ "grad_norm": 0.6180312037467957,
5975
+ "learning_rate": 5.704531854654721e-06,
5976
+ "loss": 0.0492,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.7968090098545284,
5981
+ "grad_norm": 0.33620187640190125,
5982
+ "learning_rate": 5.631156314072605e-06,
5983
+ "loss": 0.0268,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.7977475363679024,
5988
+ "grad_norm": 0.4017367660999298,
5989
+ "learning_rate": 5.558227567253832e-06,
5990
+ "loss": 0.0366,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.7986860628812764,
5995
+ "grad_norm": 0.329799622297287,
5996
+ "learning_rate": 5.485746348590048e-06,
5997
+ "loss": 0.1999,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.7996245893946504,
6002
+ "grad_norm": 0.4360359311103821,
6003
+ "learning_rate": 5.413713387966329e-06,
6004
+ "loss": 0.2429,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.8005631159080244,
6009
+ "grad_norm": 0.42038363218307495,
6010
+ "learning_rate": 5.34212941075381e-06,
6011
+ "loss": 0.2202,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.8015016424213984,
6016
+ "grad_norm": 0.38861602544784546,
6017
+ "learning_rate": 5.270995137802315e-06,
6018
+ "loss": 0.2464,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.8024401689347724,
6023
+ "grad_norm": 0.4080790877342224,
6024
+ "learning_rate": 5.200311285433213e-06,
6025
+ "loss": 0.1814,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.8033786954481464,
6030
+ "grad_norm": 0.3866097927093506,
6031
+ "learning_rate": 5.13007856543209e-06,
6032
+ "loss": 0.198,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.8043172219615204,
6037
+ "grad_norm": 0.3982942998409271,
6038
+ "learning_rate": 5.060297685041659e-06,
6039
+ "loss": 0.1352,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.8052557484748945,
6044
+ "grad_norm": 0.38927769660949707,
6045
+ "learning_rate": 4.99096934695461e-06,
6046
+ "loss": 0.1509,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.8061942749882685,
6051
+ "grad_norm": 0.4815126955509186,
6052
+ "learning_rate": 4.922094249306558e-06,
6053
+ "loss": 0.2357,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.8071328015016425,
6058
+ "grad_norm": 0.44638341665267944,
6059
+ "learning_rate": 4.853673085668947e-06,
6060
+ "loss": 0.2142,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.8080713280150165,
6065
+ "grad_norm": 0.3768538236618042,
6066
+ "learning_rate": 4.78570654504214e-06,
6067
+ "loss": 0.1754,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.8090098545283905,
6072
+ "grad_norm": 0.4675360321998596,
6073
+ "learning_rate": 4.7181953118484556e-06,
6074
+ "loss": 0.2024,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.8099483810417645,
6079
+ "grad_norm": 0.36553114652633667,
6080
+ "learning_rate": 4.651140065925269e-06,
6081
+ "loss": 0.1735,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.8108869075551385,
6086
+ "grad_norm": 0.3968017101287842,
6087
+ "learning_rate": 4.58454148251814e-06,
6088
+ "loss": 0.16,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.8118254340685125,
6093
+ "grad_norm": 0.4366585612297058,
6094
+ "learning_rate": 4.5184002322740785e-06,
6095
+ "loss": 0.1916,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.8127639605818865,
6100
+ "grad_norm": 0.4456878900527954,
6101
+ "learning_rate": 4.452716981234744e-06,
6102
+ "loss": 0.1901,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.8137024870952605,
6107
+ "grad_norm": 0.4476109743118286,
6108
+ "learning_rate": 4.387492390829734e-06,
6109
+ "loss": 0.1576,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.8146410136086344,
6114
+ "grad_norm": 0.3858775198459625,
6115
+ "learning_rate": 4.322727117869951e-06,
6116
+ "loss": 0.1468,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.8155795401220084,
6121
+ "grad_norm": 0.4127718210220337,
6122
+ "learning_rate": 4.258421814540992e-06,
6123
+ "loss": 0.1437,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.8165180666353824,
6128
+ "grad_norm": 0.477976530790329,
6129
+ "learning_rate": 4.19457712839652e-06,
6130
+ "loss": 0.1659,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.8174565931487564,
6135
+ "grad_norm": 0.42325085401535034,
6136
+ "learning_rate": 4.131193702351827e-06,
6137
+ "loss": 0.1566,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.8183951196621304,
6142
+ "grad_norm": 0.5276994109153748,
6143
+ "learning_rate": 4.068272174677335e-06,
6144
+ "loss": 0.1463,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.8193336461755044,
6149
+ "grad_norm": 0.37924113869667053,
6150
+ "learning_rate": 4.005813178992091e-06,
6151
+ "loss": 0.1486,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.8202721726888784,
6156
+ "grad_norm": 0.3589247763156891,
6157
+ "learning_rate": 3.9438173442575e-06,
6158
+ "loss": 0.147,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.8212106992022524,
6163
+ "grad_norm": 0.35409167408943176,
6164
+ "learning_rate": 3.8822852947709375e-06,
6165
+ "loss": 0.1138,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.8221492257156264,
6170
+ "grad_norm": 0.5167106986045837,
6171
+ "learning_rate": 3.821217650159453e-06,
6172
+ "loss": 0.1459,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.8230877522290004,
6177
+ "grad_norm": 0.29480406641960144,
6178
+ "learning_rate": 3.760615025373543e-06,
6179
+ "loss": 0.0901,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.8240262787423744,
6184
+ "grad_norm": 0.342669278383255,
6185
+ "learning_rate": 3.700478030680987e-06,
6186
+ "loss": 0.1048,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.8249648052557484,
6191
+ "grad_norm": 0.38799241185188293,
6192
+ "learning_rate": 3.6408072716606346e-06,
6193
+ "loss": 0.1399,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.8259033317691225,
6198
+ "grad_norm": 0.5555291175842285,
6199
+ "learning_rate": 3.581603349196372e-06,
6200
+ "loss": 0.1436,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.8268418582824965,
6205
+ "grad_norm": 0.364374577999115,
6206
+ "learning_rate": 3.522866859471047e-06,
6207
+ "loss": 0.1038,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.8277803847958705,
6212
+ "grad_norm": 0.3880341649055481,
6213
+ "learning_rate": 3.4645983939604496e-06,
6214
+ "loss": 0.1308,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.8287189113092445,
6219
+ "grad_norm": 0.5397067070007324,
6220
+ "learning_rate": 3.406798539427386e-06,
6221
+ "loss": 0.1378,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.8296574378226185,
6226
+ "grad_norm": 0.4148308038711548,
6227
+ "learning_rate": 3.349467877915746e-06,
6228
+ "loss": 0.134,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.8305959643359925,
6233
+ "grad_norm": 0.47007039189338684,
6234
+ "learning_rate": 3.2926069867446675e-06,
6235
+ "loss": 0.1599,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.8315344908493665,
6240
+ "grad_norm": 0.5068749189376831,
6241
+ "learning_rate": 3.2362164385026706e-06,
6242
+ "loss": 0.1169,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.8324730173627405,
6247
+ "grad_norm": 0.46399280428886414,
6248
+ "learning_rate": 3.180296801041971e-06,
6249
+ "loss": 0.1382,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.8334115438761145,
6254
+ "grad_norm": 0.5002433657646179,
6255
+ "learning_rate": 3.1248486374726883e-06,
6256
+ "loss": 0.1403,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.8343500703894885,
6261
+ "grad_norm": 0.6139950156211853,
6262
+ "learning_rate": 3.069872506157212e-06,
6263
+ "loss": 0.18,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.8352885969028625,
6268
+ "grad_norm": 0.5690382719039917,
6269
+ "learning_rate": 3.0153689607045845e-06,
6270
+ "loss": 0.1044,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.8362271234162365,
6275
+ "grad_norm": 0.43326783180236816,
6276
+ "learning_rate": 2.961338549964893e-06,
6277
+ "loss": 0.0655,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.8371656499296105,
6282
+ "grad_norm": 0.34085148572921753,
6283
+ "learning_rate": 2.9077818180237693e-06,
6284
+ "loss": 0.0396,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.8381041764429845,
6289
+ "grad_norm": 0.443602055311203,
6290
+ "learning_rate": 2.8546993041969173e-06,
6291
+ "loss": 0.0571,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.8390427029563585,
6296
+ "grad_norm": 0.4774901568889618,
6297
+ "learning_rate": 2.802091543024671e-06,
6298
+ "loss": 0.0534,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.8399812294697325,
6303
+ "grad_norm": 0.38863542675971985,
6304
+ "learning_rate": 2.7499590642665774e-06,
6305
+ "loss": 0.0431,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.8409197559831065,
6310
+ "grad_norm": 0.316114217042923,
6311
+ "learning_rate": 2.6983023928961404e-06,
6312
+ "loss": 0.0376,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.8418582824964805,
6317
+ "grad_norm": 0.33841946721076965,
6318
+ "learning_rate": 2.647122049095463e-06,
6319
+ "loss": 0.0347,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.8427968090098545,
6324
+ "grad_norm": 0.305271714925766,
6325
+ "learning_rate": 2.596418548250029e-06,
6326
+ "loss": 0.0368,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.8437353355232285,
6331
+ "grad_norm": 0.3888266980648041,
6332
+ "learning_rate": 2.546192400943537e-06,
6333
+ "loss": 0.0429,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.8446738620366026,
6338
+ "grad_norm": 0.43734121322631836,
6339
+ "learning_rate": 2.496444112952734e-06,
6340
+ "loss": 0.0581,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.8456123885499766,
6345
+ "grad_norm": 0.37553900480270386,
6346
+ "learning_rate": 2.4471741852423237e-06,
6347
+ "loss": 0.2901,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.8465509150633506,
6352
+ "grad_norm": 0.38433101773262024,
6353
+ "learning_rate": 2.3983831139599287e-06,
6354
+ "loss": 0.2299,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.8474894415767246,
6359
+ "grad_norm": 0.36419612169265747,
6360
+ "learning_rate": 2.3500713904311024e-06,
6361
+ "loss": 0.2153,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.8484279680900986,
6366
+ "grad_norm": 0.3630957305431366,
6367
+ "learning_rate": 2.3022395011543686e-06,
6368
+ "loss": 0.1953,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.8493664946034726,
6373
+ "grad_norm": 0.4479427933692932,
6374
+ "learning_rate": 2.2548879277963064e-06,
6375
+ "loss": 0.2186,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.8503050211168466,
6380
+ "grad_norm": 0.41679778695106506,
6381
+ "learning_rate": 2.208017147186736e-06,
6382
+ "loss": 0.1729,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.8512435476302206,
6387
+ "grad_norm": 0.38790345191955566,
6388
+ "learning_rate": 2.161627631313923e-06,
6389
+ "loss": 0.1691,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.8521820741435946,
6394
+ "grad_norm": 0.3036983609199524,
6395
+ "learning_rate": 2.1157198473197414e-06,
6396
+ "loss": 0.0952,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.8531206006569686,
6401
+ "grad_norm": 0.3704552948474884,
6402
+ "learning_rate": 2.070294257495081e-06,
6403
+ "loss": 0.146,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.8540591271703426,
6408
+ "grad_norm": 0.422657310962677,
6409
+ "learning_rate": 2.0253513192751373e-06,
6410
+ "loss": 0.1966,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.8549976536837166,
6415
+ "grad_norm": 0.4179113805294037,
6416
+ "learning_rate": 1.9808914852347813e-06,
6417
+ "loss": 0.1903,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.8559361801970906,
6422
+ "grad_norm": 0.49302175641059875,
6423
+ "learning_rate": 1.9369152030840556e-06,
6424
+ "loss": 0.2205,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.8568747067104646,
6429
+ "grad_norm": 0.45112764835357666,
6430
+ "learning_rate": 1.8934229156636452e-06,
6431
+ "loss": 0.163,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.8578132332238386,
6436
+ "grad_norm": 0.4592120051383972,
6437
+ "learning_rate": 1.8504150609403858e-06,
6438
+ "loss": 0.1817,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.8587517597372126,
6443
+ "grad_norm": 0.4495328366756439,
6444
+ "learning_rate": 1.807892072002898e-06,
6445
+ "loss": 0.1812,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.8596902862505866,
6450
+ "grad_norm": 0.47187313437461853,
6451
+ "learning_rate": 1.7658543770572189e-06,
6452
+ "loss": 0.1726,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.8606288127639605,
6457
+ "grad_norm": 0.4148295223712921,
6458
+ "learning_rate": 1.724302399422456e-06,
6459
+ "loss": 0.1251,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.8615673392773345,
6464
+ "grad_norm": 0.42326247692108154,
6465
+ "learning_rate": 1.6832365575265741e-06,
6466
+ "loss": 0.1804,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.8625058657907085,
6471
+ "grad_norm": 0.47631046175956726,
6472
+ "learning_rate": 1.6426572649021476e-06,
6473
+ "loss": 0.1736,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.8634443923040825,
6478
+ "grad_norm": 0.3451153337955475,
6479
+ "learning_rate": 1.6025649301821876e-06,
6480
+ "loss": 0.1494,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.8643829188174565,
6485
+ "grad_norm": 0.5001375079154968,
6486
+ "learning_rate": 1.5629599570960718e-06,
6487
+ "loss": 0.1899,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.8653214453308306,
6492
+ "grad_norm": 0.4486376643180847,
6493
+ "learning_rate": 1.523842744465437e-06,
6494
+ "loss": 0.1875,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.8662599718442046,
6499
+ "grad_norm": 0.2788675129413605,
6500
+ "learning_rate": 1.4852136862001764e-06,
6501
+ "loss": 0.1037,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.8671984983575786,
6506
+ "grad_norm": 0.5049369931221008,
6507
+ "learning_rate": 1.4470731712944884e-06,
6508
+ "loss": 0.1629,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.8681370248709526,
6513
+ "grad_norm": 0.484274297952652,
6514
+ "learning_rate": 1.4094215838229176e-06,
6515
+ "loss": 0.1482,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.8690755513843266,
6520
+ "grad_norm": 0.36828741431236267,
6521
+ "learning_rate": 1.372259302936546e-06,
6522
+ "loss": 0.1342,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.8700140778977006,
6527
+ "grad_norm": 0.4213540554046631,
6528
+ "learning_rate": 1.3355867028591208e-06,
6529
+ "loss": 0.1503,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.8709526044110746,
6534
+ "grad_norm": 0.41921383142471313,
6535
+ "learning_rate": 1.2994041528833266e-06,
6536
+ "loss": 0.1287,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.8718911309244486,
6541
+ "grad_norm": 0.283405601978302,
6542
+ "learning_rate": 1.2637120173670358e-06,
6543
+ "loss": 0.0963,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.8728296574378226,
6548
+ "grad_norm": 0.4370156526565552,
6549
+ "learning_rate": 1.2285106557296477e-06,
6550
+ "loss": 0.1405,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.8737681839511966,
6555
+ "grad_norm": 0.3631437420845032,
6556
+ "learning_rate": 1.1938004224484988e-06,
6557
+ "loss": 0.111,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.8747067104645706,
6562
+ "grad_norm": 0.3760519027709961,
6563
+ "learning_rate": 1.1595816670552428e-06,
6564
+ "loss": 0.1124,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.8756452369779446,
6569
+ "grad_norm": 0.5151400566101074,
6570
+ "learning_rate": 1.1258547341323699e-06,
6571
+ "loss": 0.1621,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.8765837634913186,
6576
+ "grad_norm": 0.3621469736099243,
6577
+ "learning_rate": 1.0926199633097157e-06,
6578
+ "loss": 0.1284,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.8775222900046926,
6583
+ "grad_norm": 0.5862470269203186,
6584
+ "learning_rate": 1.0598776892610685e-06,
6585
+ "loss": 0.1735,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.8784608165180666,
6590
+ "grad_norm": 0.35993069410324097,
6591
+ "learning_rate": 1.02762824170074e-06,
6592
+ "loss": 0.1208,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.8793993430314406,
6597
+ "grad_norm": 0.5549104809761047,
6598
+ "learning_rate": 9.958719453803278e-07,
6599
+ "loss": 0.1515,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.8803378695448146,
6604
+ "grad_norm": 0.5720847249031067,
6605
+ "learning_rate": 9.646091200853802e-07,
6606
+ "loss": 0.1603,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.8812763960581886,
6611
+ "grad_norm": 0.6280602812767029,
6612
+ "learning_rate": 9.338400806321978e-07,
6613
+ "loss": 0.1366,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.8822149225715626,
6618
+ "grad_norm": 0.6155312061309814,
6619
+ "learning_rate": 9.035651368646648e-07,
6620
+ "loss": 0.1148,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.8831534490849366,
6625
+ "grad_norm": 0.5635721683502197,
6626
+ "learning_rate": 8.737845936511335e-07,
6627
+ "loss": 0.0899,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.8840919755983107,
6632
+ "grad_norm": 0.5096266865730286,
6633
+ "learning_rate": 8.444987508813451e-07,
6634
+ "loss": 0.066,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.8850305021116847,
6639
+ "grad_norm": 0.3685281574726105,
6640
+ "learning_rate": 8.157079034633974e-07,
6641
+ "loss": 0.0685,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.8859690286250587,
6646
+ "grad_norm": 0.41993215680122375,
6647
+ "learning_rate": 7.874123413208145e-07,
6648
+ "loss": 0.0544,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.8869075551384327,
6653
+ "grad_norm": 0.39850619435310364,
6654
+ "learning_rate": 7.596123493895991e-07,
6655
+ "loss": 0.0381,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.8878460816518067,
6660
+ "grad_norm": 0.4517386853694916,
6661
+ "learning_rate": 7.323082076153509e-07,
6662
+ "loss": 0.0524,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.8887846081651807,
6667
+ "grad_norm": 0.3145306706428528,
6668
+ "learning_rate": 7.055001909504755e-07,
6669
+ "loss": 0.0337,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.8897231346785547,
6674
+ "grad_norm": 0.29034703969955444,
6675
+ "learning_rate": 6.791885693514133e-07,
6676
+ "loss": 0.0404,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.8906616611919287,
6681
+ "grad_norm": 0.48277053236961365,
6682
+ "learning_rate": 6.533736077758868e-07,
6683
+ "loss": 0.0583,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.8916001877053027,
6688
+ "grad_norm": 0.5475985407829285,
6689
+ "learning_rate": 6.280555661802856e-07,
6690
+ "loss": 0.0519,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.8925387142186767,
6695
+ "grad_norm": 0.426305890083313,
6696
+ "learning_rate": 6.032346995169968e-07,
6697
+ "loss": 0.3191,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.8934772407320507,
6702
+ "grad_norm": 0.4439274072647095,
6703
+ "learning_rate": 5.78911257731879e-07,
6704
+ "loss": 0.2842,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.8944157672454247,
6709
+ "grad_norm": 0.42074084281921387,
6710
+ "learning_rate": 5.550854857617193e-07,
6711
+ "loss": 0.2645,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.8953542937587987,
6716
+ "grad_norm": 0.4438987970352173,
6717
+ "learning_rate": 5.317576235317756e-07,
6718
+ "loss": 0.2283,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.8962928202721727,
6723
+ "grad_norm": 0.38136959075927734,
6724
+ "learning_rate": 5.089279059533658e-07,
6725
+ "loss": 0.1954,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.8972313467855467,
6730
+ "grad_norm": 0.3814922571182251,
6731
+ "learning_rate": 4.865965629214819e-07,
6732
+ "loss": 0.1995,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.8981698732989207,
6737
+ "grad_norm": 0.5458670258522034,
6738
+ "learning_rate": 4.647638193125137e-07,
6739
+ "loss": 0.1808,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.8991083998122947,
6744
+ "grad_norm": 0.5504524111747742,
6745
+ "learning_rate": 4.434298949819449e-07,
6746
+ "loss": 0.1281,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.9000469263256687,
6751
+ "grad_norm": 0.3983362019062042,
6752
+ "learning_rate": 4.2259500476214407e-07,
6753
+ "loss": 0.2056,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.9009854528390427,
6758
+ "grad_norm": 0.42756351828575134,
6759
+ "learning_rate": 4.02259358460233e-07,
6760
+ "loss": 0.1829,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.9019239793524167,
6765
+ "grad_norm": 0.36194801330566406,
6766
+ "learning_rate": 3.824231608559492e-07,
6767
+ "loss": 0.1771,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.9028625058657908,
6772
+ "grad_norm": 0.4930074214935303,
6773
+ "learning_rate": 3.630866116995757e-07,
6774
+ "loss": 0.1867,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.9038010323791648,
6779
+ "grad_norm": 0.4651222825050354,
6780
+ "learning_rate": 3.4424990570994797e-07,
6781
+ "loss": 0.1831,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.9047395588925388,
6786
+ "grad_norm": 0.4466666281223297,
6787
+ "learning_rate": 3.2591323257248893e-07,
6788
+ "loss": 0.1876,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.9056780854059128,
6793
+ "grad_norm": 0.44728291034698486,
6794
+ "learning_rate": 3.080767769372939e-07,
6795
+ "loss": 0.1267,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.9066166119192868,
6800
+ "grad_norm": 0.42169511318206787,
6801
+ "learning_rate": 2.907407184172706e-07,
6802
+ "loss": 0.1713,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.9075551384326607,
6807
+ "grad_norm": 0.46620965003967285,
6808
+ "learning_rate": 2.7390523158633554e-07,
6809
+ "loss": 0.1535,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.9084936649460347,
6814
+ "grad_norm": 0.32784417271614075,
6815
+ "learning_rate": 2.5757048597765396e-07,
6816
+ "loss": 0.1221,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.9094321914594087,
6821
+ "grad_norm": 0.3998068571090698,
6822
+ "learning_rate": 2.4173664608193593e-07,
6823
+ "loss": 0.2015,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.9103707179727827,
6828
+ "grad_norm": 0.460513174533844,
6829
+ "learning_rate": 2.2640387134577058e-07,
6830
+ "loss": 0.1625,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.9113092444861567,
6835
+ "grad_norm": 0.4046340584754944,
6836
+ "learning_rate": 2.1157231617002783e-07,
6837
+ "loss": 0.1704,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.9122477709995307,
6842
+ "grad_norm": 0.3981708586215973,
6843
+ "learning_rate": 1.9724212990830938e-07,
6844
+ "loss": 0.1208,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.9131862975129047,
6849
+ "grad_norm": 0.34203973412513733,
6850
+ "learning_rate": 1.8341345686543332e-07,
6851
+ "loss": 0.1067,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.9141248240262787,
6856
+ "grad_norm": 0.44881898164749146,
6857
+ "learning_rate": 1.7008643629596866e-07,
6858
+ "loss": 0.1709,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.9150633505396527,
6863
+ "grad_norm": 0.31232231855392456,
6864
+ "learning_rate": 1.5726120240288634e-07,
6865
+ "loss": 0.1101,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.9160018770530267,
6870
+ "grad_norm": 0.3267379701137543,
6871
+ "learning_rate": 1.449378843361271e-07,
6872
+ "loss": 0.1197,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.9169404035664007,
6877
+ "grad_norm": 0.391245037317276,
6878
+ "learning_rate": 1.3311660619138578e-07,
6879
+ "loss": 0.1291,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.9178789300797747,
6884
+ "grad_norm": 0.29714858531951904,
6885
+ "learning_rate": 1.2179748700879012e-07,
6886
+ "loss": 0.1088,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.9188174565931487,
6891
+ "grad_norm": 0.3698490858078003,
6892
+ "learning_rate": 1.109806407717462e-07,
6893
+ "loss": 0.1115,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.9197559831065227,
6898
+ "grad_norm": 0.44916272163391113,
6899
+ "learning_rate": 1.0066617640578368e-07,
6900
+ "loss": 0.1429,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.9206945096198967,
6905
+ "grad_norm": 0.29244813323020935,
6906
+ "learning_rate": 9.085419777743465e-08,
6907
+ "loss": 0.0939,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.9216330361332707,
6912
+ "grad_norm": 0.42110949754714966,
6913
+ "learning_rate": 8.15448036932176e-08,
6914
+ "loss": 0.1507,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.9225715626466447,
6919
+ "grad_norm": 0.5473390221595764,
6920
+ "learning_rate": 7.273808789862724e-08,
6921
+ "loss": 0.1426,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.9235100891600188,
6926
+ "grad_norm": 0.44537729024887085,
6927
+ "learning_rate": 6.443413907720186e-08,
6928
+ "loss": 0.1561,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.9244486156733928,
6933
+ "grad_norm": 0.5118576288223267,
6934
+ "learning_rate": 5.663304084960186e-08,
6935
+ "loss": 0.1335,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.9253871421867668,
6940
+ "grad_norm": 0.49559977650642395,
6941
+ "learning_rate": 4.933487177280482e-08,
6942
+ "loss": 0.1577,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.9263256687001408,
6947
+ "grad_norm": 0.5932679772377014,
6948
+ "learning_rate": 4.253970533929508e-08,
6949
+ "loss": 0.1772,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.9272641952135148,
6954
+ "grad_norm": 0.6194862723350525,
6955
+ "learning_rate": 3.624760997631982e-08,
6956
+ "loss": 0.1861,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.9282027217268888,
6961
+ "grad_norm": 0.5649739503860474,
6962
+ "learning_rate": 3.04586490452119e-08,
6963
+ "loss": 0.1337,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.9291412482402628,
6968
+ "grad_norm": 0.6465506553649902,
6969
+ "learning_rate": 2.5172880840745873e-08,
6970
+ "loss": 0.1351,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.9300797747536368,
6975
+ "grad_norm": 0.4647253751754761,
6976
+ "learning_rate": 2.0390358590538504e-08,
6977
+ "loss": 0.0773,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.9310183012670108,
6982
+ "grad_norm": 0.503708004951477,
6983
+ "learning_rate": 1.6111130454543598e-08,
6984
+ "loss": 0.0617,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.9319568277803848,
6989
+ "grad_norm": 0.4131607115268707,
6990
+ "learning_rate": 1.2335239524541299e-08,
6991
+ "loss": 0.0664,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.9328953542937588,
6996
+ "grad_norm": 0.42172956466674805,
6997
+ "learning_rate": 9.06272382371065e-09,
6998
+ "loss": 0.0613,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.9338338808071328,
7003
+ "grad_norm": 0.2973405420780182,
7004
+ "learning_rate": 6.293616306246586e-09,
7005
+ "loss": 0.0358,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.9347724073205068,
7010
+ "grad_norm": 0.2740052342414856,
7011
+ "learning_rate": 4.0279448570323954e-09,
7012
+ "loss": 0.0219,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.9357109338338808,
7017
+ "grad_norm": 0.4387475550174713,
7018
+ "learning_rate": 2.265732291356626e-09,
7019
+ "loss": 0.0412,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.9366494603472548,
7024
+ "grad_norm": 0.22171834111213684,
7025
+ "learning_rate": 1.0069963546743832e-09,
7026
+ "loss": 0.0249,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.9375879868606288,
7031
+ "grad_norm": 0.42475777864456177,
7032
+ "learning_rate": 2.5174972244634833e-10,
7033
+ "loss": 0.0581,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.9385265133740028,
7038
+ "grad_norm": 0.39713239669799805,
7039
+ "learning_rate": 0.0,
7040
+ "loss": 0.0491,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.9385265133740028,
7045
+ "eval_loss": 0.13689762353897095,
7046
+ "eval_runtime": 272.2306,
7047
+ "eval_samples_per_second": 6.594,
7048
+ "eval_steps_per_second": 1.649,
7049
+ "step": 1000
7050
  }
7051
  ],
7052
  "logging_steps": 1,
 
7070
  "should_evaluate": false,
7071
  "should_log": false,
7072
  "should_save": true,
7073
+ "should_training_stop": true
7074
  },
7075
  "attributes": {}
7076
  }
7077
  },
7078
+ "total_flos": 2.4455076866791834e+18,
7079
  "train_batch_size": 8,
7080
  "trial_name": null,
7081
  "trial_params": null